Bioinfo 01

I
Edição
Revista Brasileira de Bioinformática

e Biologia Computacional
ISBN: 978-6-599-275326 | doi: 10.51780/978-6-599-275326
Jul. 2021
Organização
0000-0002-5899-2052
Dr. Diego Mariano
Residente pós-doutoral | Departamento de Ciência da Computação (UFMG)
Editor-in-chief Alfahelix
Revisão
0000-0003-3259-3456
Filipe Zimmer Dezordi
Doutorando | Núcleo de Bioinformática (FIOCRUZ/IAM)
0000-0002-2446-872X
Dr. Pedro Magalhães Martins
Residente pós-doutoral | Departamento de Ciência da Computação (UFMG)
0000-0002-4649-6270
Profa. Joicymara Santos Xavier
Professora assistente | Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
0000-0001-9809-8883
Dr. Thiago de Jesus Sousa
Residente pós-doutoral | Programa de pós-graduação em Bioinformática (UFMG)
0000-0003-4346-9880
Prof. Dr. Leonardo Lima
Professor adjunto | Universidade Federal de São João del-Rei
0000-0002-6910-0697
Dra. Lucianna Helene Santos
Residente pós-doutoral | Programa de pós-graduação em Bioinformática (UFMG)
Ficha catalográfica Publicação Capa
Sandro Alex Batista Alfahelix, CNPJ: 37.524.984/0001-10 Adaptado de rawpixel.com / Freepik

CRB6/2433 Lagoa Santa, MG, Brasil
Estruturas da hemoglobina e do tRNA foram
Bibliotecário obtidas no PDB e renderizadas com
www.alfahelix.com.br
ChimeraX.
M333b MARIANO, Diego et al. (Org.)
BIOINFO: Revista Brasileira de Bioinformática e Biologia Computacional

/ Organização de Diego Mariano; Revisão de Felipe Zimmer Dezordi;
Alessandra Lima da Silva et al. Lagoa Santa, MG: Alfahelix, 2021. V.1.
302 p. il.: Imagens, figuras e gráficos (colors).
E-book.
ISBN: 978-6-599-275326
DOI: 10.51780.978-6-599-275326
1. Bioinformática. 2. Computação. 3. Biologia 4. Sequenciamento Genético.

5. DEZORDI, Felipe Zimmer. 6. SILVA, Alessandra Lima de. I. Título.
CDD: 006.5765
CDU: 004.89/576
Ficha Catalográfica – Bibliotecário: Sandro Alex Batista CRB6/2433
Obra gratuita. Proibida a venda.
Todos os direitos autorais pertencem aos autores de cada respectivo capítulo. Todavia, os
autores concordam em compartilhar gratuitamente o conteúdo deste livro e incentivam sua
livre distribuição (desde que os autores dos respectivos capítulos sejam corretamente citados
e/ou que as leis de uso justo sejam respeitadas). Este livro está compartilhado sob a licença
Creative Commons Atribuição-NãoComercial 4.0 Internacional (CC BY-NC 4.0). Você pode
utilizar qualquer conteúdo aqui apresentado, desde que cite:
Mariano, DCB (org.) et al. BIOINFO - Revista Brasileira de Bioinformática e Biologia

Computacional. 1. Ed. Vol. 1. ISBN: 978-6-599-275326. Lagoa Santa: Alfahelix, 2021. DOI:
10.51780/978-6-599-275326
Esta é uma obra digital. Note que fazemos uso de links e outras propriedades de hipertexto, o que pode
limitar a qualidade de edições impressas deste manuscrito. Entretanto, sinta-se à vontade caso deseje
imprimir este conteúdo. A cópia por meio impresso ou digital (PDF) é permitida, sendo exclusivamente
vedada a venda visando lucro.
Detalhes sobre a licença de uso estão disponíveis em: https://bioinfo.com.br/licenca-de-uso/

Autores
BIOINFO #01 – Jul. 2021
Alessandra Lima da Silva Lissur Orsine

Alice Barros Câmara Luana Luiza Bastos
Ana Paula de Abreu Lucas Miguel de Carvalho
Anderson Santos de Freitas Lucianna H. Santos
Bruno M. Silva Lucio R. Queiroz
Danilo Castro Maira Rodrigues de Camargo Neves
Danilton Xavier Mayla Abrahim Costa
Deivid Almeida de Jesus Mônica Pereira Coelho
Diego Mariano Nayara Toledo
Elisa Donnard Neli José da Fonseca Júnior
Elvira C.A. Horácio Pâmela Marinho
Felipe Caixeta Paulo Ferreira
Fenícia Brito Santos Pedro Martins
Fernanda Stussi D Lage Quézia Bernardes
Filipe Zimmer Dezordi Renato Augusto Corrêa dos Santos
Flávia Figueira Aburjaile Rodrigo Kato
Gabriel Quintanilha-Peixoto Roselane G. dos Santos
Glen Jasper Yupanqui García Sandro Izidoro
Gustavo Garcia Pereira Sheila Tiemi Nagamatsu
Helber Barboza Pinto Victor Hugo Resende
Heron O. Hilário Vinicios Henrique da Silva
Izadora Miranda Vinícius Paiva
Joana Linhares Vitor Pimentel dos Santos
Joicymara S. Xavier Wandré Veloso
Kaíssa Barbosa Wanessa M. Goes
Leandro Libório Welington Silva
Letícia Xavier Silva Wylerson Nogueira
Sumário
Editorial 8
Bioinformática clássica
1. Como começar na Bioinformática 18
2. Biologia e Computação: Um Casamento Perfeito 28
3. Sequenciamento de primeira geração: método de Sanger 32
4. Sequenciamento NGS: Status e Perspectivas 38
5. Tipos de cobertura em sequenciamento genômico 51
6. Imunobioinformática para leigos 56
Bioinformática Estrutural
7. Alinhamentos estruturais: métodos de sobreposição de proteínas

e outras moléculas 76
8. Modelagem computacional de proteínas 114
9. Docagem molecular: em busca do encaixe perfeito e acessível 152
10. Introdução à triagem virtual 158
11. Dinâmica molecular: como mostrar um filme completo em uma

folha de papel? 176
Biologia de sistemas
12. Vias biológicas 188
Computação
13. Algoritmos Genéticos 199
14. Inteligência Artificial aplicada à Bioinformática 221
15. Métricas de avaliação em machine learning 233
16. Introdução aos bancos de dados biológicos 242
17. Biopython: uma breve introdução à manipulação de dados

biológicos em Python usando Colab 253
Ensino
18. Liga Brasileira de Bioinformática: desafios para estimular a

formação de estudantes de Bioinformática e Biologia
Computacional 264
19. Uma estratégia para engajamento de participantes de eventos

online 278
Evolução
20. Os 5 passos essenciais para construção de árvores filogenéticas 289
E D I TO R IA L
00
BIOINFO - Revista Brasileira de Bioinformática e Biologia Computacional | www.bioinfo.com.br 8
EDI TOR IAL
Editorial – BIOINFO #01

By Editor-in-chief
8 de julho de 2021
Editorial – BIOINFO #01

Diego Mariano
Revisão: Filipe Zimmer Dezordi
BIOINFO – Revista Brasileira de Bioinformática. Edição #01. Julho, 2021.
DOI: 10.51780/978-6-599-275326-00
A
Bioinformática como área de pesquisa tem crescido
exponencialmente nos últimos tempos. Entretanto, ainda há uma
lacuna de material de estudo escrito em língua portuguesa.
Nesse contexto, propõe-se a BIOINFO: Revista Brasileira de
Bioinformática e Biologia Computacional, disponível em www.bioinfo.com.br.
BIOINFO é um projeto amplo que engloba um portal, uma rede de divulgação

e uma revista digital focada em publicar conteúdo voltado à divulgação
científica em bioinformática e biologia computacional escrito em língua
portuguesa. O portal abre espaço para cientistas, professores, pesquisadores
e estudantes de pós-graduação divulgarem suas pesquisas, além de
publicar artigos de opinião, carreira, revisões, tutoriais, educativos ou textos
de divulgação científica em geral. A submissão de artigos para revista é
aberta e realizada em fluxo contínuo. Artigos aprovados em um processo de
revisão por pares simplificada são publicados em páginas de internet e ficam
disponíveis para acesso público sem qualquer custo para os autores ou
leitores. Opcionalmente, os autores podem requisitar um registro de DOI
(Digital Object Identifier) para o manuscrito. Nesse caso, os artigos são
publicados como capítulos de livro.
Neste editorial, será apresentado uma breve descrição dos fundamentos do

projeto BIOINFO juntamente formato de publicação. Serão apresentados
ainda os resultados da pesquisa que fundamentaram o modelo de
publicação adotado pela BIOINFO. O modelo de publicação da revista foi
baseado em uma pesquisa realizada com participantes do meio acadêmico
(detalhes exibidos a seguir).
Formato de publicação
A Revista BIOINFO aceita apenas artigos escritos em língua portuguesa. A
revista publica principalmente artigos técnicos, como artigos educacionais,
tutoriais, artigos de descrição ou apresentação de software e artigos de
opinião (Figura 1). Os artigos são publicados online à medida que forem
BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

recebidos e aprovados pelo processo editorial. Esporadicamente, coletâneas

de artigos poderão ser organizadas e publicadas como livros, sendo cada
artigo publicado como um capítulo.
Figura 1. Fluxograma dos tipos de manuscritos publicados pela BIOINFO.
Recomendações básicas a autores

Sugere-se que seu artigo tenha pelo menos 150 palavras. Não há tamanho
máximo. Entretanto, artigos muito grandes poderão ser divididos em várias
postagens na versão online. Manuscritos devem ser enviados em formato
docx. Citações devem utilizar o formato numérico com colchetes (exemplo:
[1], [2-5], [2, 7-10]). O uso de figuras e tabelas é fortemente recomendado.
Formatação recomendada:
Fonte: Time News Roman
Tamanho: 12
Espaçamento: 1.5
Como é o processo de avaliação?

Atualmente, BIOINFO utiliza um processo de revisão por pares simplificada:

Um editor irá receber o texto (ou proposta de texto) e irá avaliar se o

assunto é relevante (se for, o autor será informado por e-mail);
O editor(a) revisará o manuscrito ou irá encaminhar a verificação para

outro revisor (autores podem ainda indicar revisores). Os três principais
pontos avaliados na revisão são:
1. Revisão de preceitos éticos e morais: verifica se o artigo respeita os
princípios científicos comumente estabelecidos, não oferece risco à
saúde pública ou fomenta preconceitos contra minorias étnicas e
religiosas. Neste caso, editores ou revisores podem requisitar
mudanças ou rejeitar irrevogavelmente o manuscrito.
2. Revisão teórica: avalia se o conteúdo é de interesse público e é

relevante para a revista. Avalia ainda se o conteúdo está bem
fundamentado com base na literatura. Nesse caso, editores ou
revisores podem aprovar o manuscrito para publicação da forma que
está, recomendar mudanças ou rejeitar o artigo.
3. Revisão ortográfico-gramatical: textos devem atender à norma culta

da língua portuguesa. Entretanto, não é necessário o uso de uma
escrita estritamente formal (autores podem optar pelo uso de
linguagem coloquial caso entendam ser necessário para um melhor
entendimento do texto). Recomenda-se ainda a adoção de linguagem
dialógica para a escrita dos manuscritos. Destaca-se ainda que, na
maior parte dos casos, manuscritos não serão rejeitados com base em
erros ortográfico-gramaticais. Editores ou revisores podem sugerir
correções, sugestões e mudanças diretamente no texto usando
ferramentas de controle de alteração. Essas mudanças poderão ser
aceitas ou rejeitadas pelos autores. Cada caso será avaliado pelo
editor responsável.
O texto revisado será enviado de volta para o autor, que terá um período
de até duas semanas para retornar o texto com as correções
implementadas. Caso necessário, novas rodadas de revisão poderão ser
requisitadas. Por não ser um periódico científico, o comitê editorial da
revista reserva o direito de, a qualquer momento, poder realizar alterações
nos textos ou até mesmo removê-los do ar, mesmo após a publicação.
Pesquisa base
Uma pesquisa com estudantes de graduação e pós-graduação de cursos
brasileiros nas áreas de ciências biológicas e bioinformática foi realizada
online de 23/11/2020 a 02/12/2020. A plataforma Google Forms foi utilizada
para coleta de dados. Obteve-se ao todo 30 respostas, sendo a maioria
composta por estudantes de mestrado (Figura 2).

Figura 2. Grau de escolaridade dos 30 participantes da pesquisa.
A priori, a pesquisa avaliou o engajamento de estudantes sobre divulgação

científica focando principalmente em pesquisas relacionadas.
Inicialmente questionou-se se os participantes já haviam escrito e publicado

artigos científicos, revisões ou artigos de divulgação científica em língua
portuguesa. Surpreendentemente, mais de 53% das respostas foram
negativas (Figura 3). Essa quantidade foi considerada peculiar uma vez que o
público-alvo da pesquisa eram oriundos do meio acadêmico (estudantes de
graduação, mestrado e doutorado, além de pós-docs). Esses dados indicam
uma situação preocupante: uma parte considerável do meio acadêmico não
tem costume de escrever textos em sua língua nativa.
De modo geral, programas de graduação e pós-graduação requerem

monografias para conclusão, como o TCC na graduação, a dissertação de
mestrado e a tese de doutorado. Essas monografias podem ser escritas em
português, mas em alguns casos, os estudantes preterem a escrita para o
final do período acadêmico. Além disso, a escrita de textos básicos de
divulgação científica muitas vezes é negligenciada no meio acadêmico,
sendo uma maior recomendação por uma produção de artigos científicos
feita por orientadores de pós-graduação.
Trabalhos de pesquisa são, em geral, publicados em inglês, a principal língua

do meio acadêmico. Assim, é natural que pesquisadores, mestres e doutores,
optem por publicar seus trabalhos de pesquisa em inglês para atingir um
público maior e ter um maior impacto internacional. O mesmo ocorre ao
escrever artigos técnicos, de ensino e de divulgação científica. Apesar de ter
um maior alcance mundial, isso cria uma lacuna para a formação de futuros
pesquisadores que utilizarão esses conteúdos como fonte de estudo, uma vez
que muitos estudantes brasileiros não são fluentes em outras línguas
estrangeiras.

Figura 3. Percentual de respostas para a pergunta: você já escreveu e publicou artigos

científicos, capítulos de livro, revisões ou mesmo artigos de divulgação científica em
português?
Entretanto, ao serem questionados se consideram importante a escrita de

artigos de divulgação científica em língua portuguesa para o currículo
acadêmico, 93,3% escolheram a opção “sim, pois a divulgação científica faz
parte do meio acadêmico” (Figura 4). Além disso, os outros 6,7% dos
entrevistados escolheram a opção “talvez, divulgação científica é importante,
mas não acredito que seja necessário incluí-la em meu currículo”
(especificamente, essa opção foi selecionada por um pós-doc).
Figura 4. Você considera importante para seu currículo a publicação de textos de

divulgação científica?
Questionou-se ainda sobre o interesse em produzir manuscritos em língua

portuguesa para divulgação científica em bioinformática e áreas afins.
Propôs-se ainda que esses manuscritos fossem publicados como capítulos
de livro (identificados por um código ISSN, registro DOI, indexação em bases
de dados públicas e registro em uma editora). Artigos científicos de pesquisa

são publicados apenas por periódicos acadêmicos, enquanto artigos

técnicos e de divulgação científica não são comumente publicados. Por isso,
muitas vezes a produção de conteúdo de divulgação científica é vista como
uma perda de tempo por orientadores. Para reconhecimento do trabalho
realizado e atrair o interesse de estudantes, propôs-se na pesquisa a
possibilidade de publicação do conteúdo produzido como capítulos de livros
(desde que atendam a requisitos, como revisão por pares). Mais de 83% dos
entrevistados demonstraram interesse nesse tipo de publicação (Figura 5).
Figura 5. Você se interessaria em escrever textos educativos sobre bioinformática em

português e publicá-los como capítulo de livro digital?
Os entrevistados foram questionados ainda sobre a preferência de

publicação para trabalhos de divulgação científica. Nesse caso, três opções
estavam disponíveis: (i) como artigo em um periódico conceituado (mesmo
que consuma muito tempo); (ii) como capítulo de livro (desde que passe por
revisão por pares); e (iii) como post em um site não obrigatoriamente
acadêmico (desde que o site possua um alto número de acessos). A primeira
opção teve como objetivo avaliar a importância dada à publicação em
periódicos conceituados. Em geral, periódicos conceituados são publicados
em língua inglesa, cerca de 45% dos participantes escolheram essa opção. A
segunda opção avalia o interesse de estudantes em publicações de capítulos
de livros. Essa opção foi a menos votada (24%). A terceira opção propõe a
publicação dos textos como postagens em um website não-
obrigatoriamente acadêmico, como sites de ciências, ensino e curiosidades.
Esse tipo de site pode se tornar bastante popular, atraindo assim um alto
número de possíveis leitores. Isso pode ter sido responsável por atrair o
interesse dos participantes dessa pesquisa e 31% dos votantes escolheram
essa opção (Figura 6).

Figura 6. Questão: se você escrevesse um texto de divulgação científica em português,

como preferia publicá-lo?
Ainda para avaliar o interesse em publicação como capítulo de livro,

questionou-se aos participantes da pesquisa se eles consideravam
importante a publicação de capítulos de livro (Figura 7). Nesse caso, desejou-
se avaliar não apenas se autores tinham interesse em publicação como
capítulos de livro, mas também se preferiam evitar pagamento de taxas de
publicação (opção escolhida por 60% dos participantes) ou pagar taxas de
publicação e manter os direitos exclusivos sobre o conteúdo publicado
(opção escolhida por 33,3% dos participantes). Apenas 6,7% dos participantes
responderam ter interesse apenas na publicação de capítulos de livros em
inglês. Uma quarta opção questionava ainda se os participantes tinham uma
perspectiva de que apenas artigos publicados em periódicos com fator de
impacto são relevantes, mas nenhum participante selecionou essa opção.
Figura 7. Questão: para sua carreira acadêmica, você considera relevante publicar
capítulos de livros?

Importância na carreira
A seguir realizou-se uma série de oito perguntas relacionadas à importância
dada pelos participantes para um determinado tipo de publicação (Tabela 1).
Cada participante poderia dar uma nota que variava de 1 a 5, sendo:
1. Sem importância (não ajuda e ainda atrapalharia minha carreira);
2. Baixa importância (não ajuda, mas não atrapalharia minha carreira);
3. Importância média (sou neutro em relação à pergunta);
4. Relativamente importante (ajudaria um pouco minha carreira);
5. Muito importante (é vital para minha carreira acadêmica).
# Pergunta
Quão importante você considera a publicação de artigos científicos

A escritos em inglês em periódicos de alto impacto – e.g. mínimo Qualis
A1 ou A2

B escritos em inglês em periódicos de fator de impacto medianos – e.g.
F.I. < 1.5 com extrato Qualis nível B4 ou superior

C escritos em inglês em periódicos de fator de impacto baixo – e.g.
classificados com Qualis C ou F.I. < 0.5

D
escritos em português em periódicos
Quão importante você considera a escrita de textos de divulgação

E
científica em português
Quão importante você considera a escrita de textos de divulgação

F
científica em inglês
Quão importante você considera a publicação de capítulos de livros

G
em inglês
Quão importante você considera a publicação de capítulos de livros

H
em português
Tabela 1. Questões sobre a importância dada pelos participantes a distintos

tipos de publicação.
Resultados das questões estão condensados na Figura 8.

Figura 8. Nota média dada pelos participantes para cada uma das questões (Tabela 1).
Para periódicos de alto impacto, adicionou-se como exemplo, revistas classificadas pela
métrica Qualis nos estratos A1 e A2. O Qualis é o sistema de classificação dado pela
agência brasileira CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior)
para periódicos científicos de acordo com suas áreas de atuação. Esse sistema apresenta
classes variando de A1 a C, sendo A1 dado a periódicos de maior impacto e C a periódicos
de menor impacto. Versões prévias do sistema incluíam os estratos: A1, A2, B1, B2, B3,
B4, B5 e C. Uma nova atualização removeu a classe B5 e incluiu as classes A3 e A4.
Para as questões A, B e C, avaliamos a importância dada a periódicos

considerados de impacto alto, médio e baixo, respectivamente. Nesse caso,
essas perguntas foram realizadas como uma espécie de grupo controle para
as outras questões, uma vez que é consenso que publicações em revistas de
alto impacto são essenciais para uma carreira acadêmica. Portanto,
esperava-se valores altos para essa categoria. De fato, todas as respostas
dadas para a questão A foram notas 4 ou 5 (média de 4,70). As questões B e
C tiveram resposta média de 4,20 e 3,23, respectivamente. A questão D
avaliou a importância de publicações em periódicos em língua portuguesa. É
interessante que a nota média dada nessa categoria (média de 3,9) se
aproximou da nota dada em periódicos classificados como de baixo impacto,
o que indica um baixo interesse em publicações científicas em língua
portuguesa. Vê-se ainda um levemente maior interesse na escrita de textos
de divulgação científica em português (questão E), quando comparado ao
interesse na realização de divulgação científica em inglês (questão E tem
uma nota média de 4,50, enquanto a F tem uma média de 4,40). Por fim,
verificou-se o interesse na publicação de capítulos de livros em inglês e
português (questões G e H, respectivamente). Nesse caso, pode-se perceber
que as notas médias referentes a publicação de capítulos em inglês é um
pouco mais alta do que em português (4,63 e 4,57, respectivamente).

Em conclusão, pode-se observar com base na média das notas que os

participantes demonstram um alto interesse para publicação de trabalhos de
divulgação científica em língua portuguesa (média de 4,50) e na publicação
de capítulos de livro em português (média de 4,57). Como comparativo,
pode-se utilizar a nota dada para publicação de trabalhos em periódicos de
baixo impacto em que se já esperava um baixo interesse (média de 3,23). Vê-
se ainda que o interesse em divulgação científica e publicação de capítulos
em português é superior ao interesse em publicação em periódicos de médio
impacto (média de 4,20).
Conclusão
Os insights obtidos nesta pesquisa serviram como base para modelagem dos
princípios que levaram à fundação da BIOINFO – Revista Brasileira de
Bioinformática e Biologia Computacional. Espera-se que o conteúdo
disponibilizado pela revista BIOINFO possa fomentar o ensino e aprendizagem
de bioinformática no Brasil e em outros países que falam a língua
portuguesa. O projeto BIOINFO está disponível em www.bioinfo.com.br.

01
DES TAQ UE S ENSINO T UT O RI AI S
Como começar na Bioinformática?

By Lucas Miguel
8 de junho de 2021
Como começar na Bioinformática?

Lucas Miguel Carvalho
Revisão: Diego Mariano
DOI: 10.51780/978-6-599-275326-01
O conteúdo e imagens do texto “Como começar na bioinformática?” foram previamente

publicados em totalidade em Terabytes of life [Blogs de Ciência da Unicamp]. [acesso: 26
de maio de 2021].
A
Bioinformática é uma ciência que vem crescendo ao longo dos
anos, o que faz com que a adesão profissional nesta área seja
altamente necessária. Mas caso você esteja iniciando na área,
por onde se deve começar? Como dar o pontapé inicial? Como
criar uma formação multidisciplinar e buscar aprimoramento? Esse é o
objetivo deste capítulo.
Um perfil de profissional multidisciplinar é o desejado para um(a)

bioinformata e, para isso, deve-se criar sempre o hábito de se aventurar por
novos horizontes e não hesitar. A primeira característica principal de um(a)
bioinformata é a curiosidade. Quantas vezes você já não se encontrou em
uma barreira lógica e teve que buscar soluções? Essa habilidade de buscar
soluções em diferentes locais e maneiras faz com que este tipo de
profissional também seja muito cobiçado no mercado. Independente da sua
formação, seja ela vinda de exatas ou biológicas, existem dois passos

essenciais para uma progressão inicial em Bioinformática que te ajudarão a

se inteirar nos assuntos das discussões em grupos. Eles são:
1. Ler a introdução de artigos científicos
2. Ler e testar programas e pipelines do Material e Métodos
Estas duas ações te ajudarão muito a crescer. O passo (1) sempre trás
citações de outros artigos da área de estudo que te embasarão no tema. As
introduções de artigos de análise clássicas em bioinformática ou de artigos
mais aplicados, que mesmo assim utilizam o ferramental da área, sempre
proporcionam uma cascata de conhecimento gigantesca. Por sua vez, o
passo (2) acaba sendo essencial para que você inicie um primeiro contato
com os programas utilizados em sua área de estudo e esteja sempre atento,
principalmente aos parâmetros utilizados nos programas de bioinformática,
que são essenciais para reprodução.
Como mencionado, o perfil de um (a) bioinformata é bastante heterogêneo.

Dependendo do perfil inicial do profissional, há algumas diferenças em suas
abordagens de início, e são elas que irão ser abordadas ao longo deste
capítulo. Não deixem de acompanhar as dicas de leitura, vídeos, cursos e
afins no final deste texto.
Antes de começar, aconselho a todos lerem um pouco mais sobre a história

da Bioinformática em um ótimo texto elaborado por Jeff Gauthier e
colaboradores [1], que se intitula “A brief history of bioinformatics”. Nesse texto
você entende o surgimento da Bioinformática há mais de 50 anos atrás, e
toda a sua evolução até os dias de hoje.
Perfil de Ciências Exatas
Os iniciantes no ramo da bioinformática oriundos de cursos de exatas, como

Ciência da Computação, Matemática, Física ou Engenharias, tendem a ter
mais dificuldade em temas relacionados à biologia. Mas, esses profissionais
devem usar a capacidade de já ter tido contato com algoritmos e linguagens
de programação para se aperfeiçoar. As dicas são as seguintes:

Introdução de artigos. Como mencionado, ler as introduções de vários artigos

da área de estudo de interesse te traz uma grande bagagem. Inclusive,
busque outros artigos citados nas introduções. Um dos principais desafios e
motivações para alguém das exatas é saber onde aplicar seu conhecimento
na área de biológicas. Os programas de bioinformática, por exemplo,
introduzem o problema que querem solucionar, e acabam por motivar e
exemplificar tais problemas.
Leiam revisões. As revisões ajudam e muito a entender os estudos atuais das

áreas de pesquisas. Pergunte ao seu orientador ou supervisor sobre revisões
atuais, se não, busque no Google Scholar por palavras-chave relacionadas a
sua pesquisa.
Se aperfeiçoe em linguagens de programação. Chega um momento que

estudantes e profissionais de exatas terão que desenvolver pacotes ou
software de bioinformática, e necessitarão de muita especialidade,
principalmente para paralelização e web. Além disso, integrar resultados e
realizar pipelines é essencial, logo, precisam de habilidades nestes aspectos.
Na bioinformática existe uma alta tendência na utilização do Python e R para
análises mais complexas, mas não que Perl, C++ ou MATLAB deixem de
contribuir com pacotes e programas sensacionais.
Aprenda gerenciamento de processos e servidores Linux. Esta dica cabe

tanto para os dois perfis discutidos neste capítulo. Saber gerenciar processos
em um servidor é essencial para análises mais robustas e que necessitem de
paralelização. Quem nunca teve que reiniciar um servidor, verificar uma fila
de processos, observar os verboses, utilizar GPUs, alterar permissões e matar
o processo baleia do amiguinho?
Seminários e livros de genética e biologia molecular. Importante destacar

que, na imersão nos temas de bioinformática, é necessário entender o que
acontece dentro da célula. Livros de Genética e Biologia Molecular trazem
conceitos básicos e importantes sobre o porquê executar tal ferramenta em
determinado aspecto. Por exemplo, a diferença no tratamento de
montadores de genomas e transcriptomas devido ao tipo de dado que cada
um recebe como entrada. Os seminários em si são essenciais para conhecer
rotinas de pesquisa na área de genética, além de promover uma imersão
com o grupo. Meu orientador do doutorado sempre dizia que os “Seminários
são o momento em que se tem a interação do laboratório e integração de
habilidades, logo, eles são essenciais”.
Leia os artigos dos programas que você utiliza. Uma das grandes habilidades
que vejo em grandes profissionais da área é tentar ensinar as aplicações de
forma mais clara. Entender o processo por trás do software, e não apenas
apertar um botão, faz com que você consiga interpretar e explicar ele com
mais facilidade. Vindo da área de exatas, a todo o momento você, estudante
ou profissional, teve contato com manuais e afins. Logo, a tendência é saber

lidar com manuais e artigos técnicos, assim, tente entendê-los mais a fundo
e repasse o conhecimento.
Pergunte “por quês” e “ondes”. Por que realizar tal análise? Por que o
mecanismo é este? Por que não executar um pipeline assim? Por que o
experimento é desta maneira? Onde queremos chegar? Onde posso
começar? Onde posso buscar? Se questionar quando não entender os
procedimentos biológicos te trás uma maior bagagem sobre o que está
acontecendo a sua volta e onde você pode ajudar. Não tenha medo.
Realize cursos de bioinformática. Existem muitos cursos de bioinformática,

canais do YouTube, blogs, entre outros, que tratam sobre assuntos de
bioinformática e trazem visões diferentes de problemas abordados por
diversas áreas. Um curso de bioinformática pode te trazer tanta bagagem,
que você mudará suas visões a respeito da área. Os problemas que podem
ser resolvidos através da bioinformática são inúmeros, e isso é o que a faz ser
tão essencial.
Não deixe os algoritmos morrerem. Algoritmos estão em toda bioinformática

e biologia computacional, e são uma pitada de elegância nesta área.
Pessoas vindas da computação e afins se esbarram com eles a todo o
momento, logo, tragam eles para seu dia a dia. Análise de algoritmos e
heurísticas são disciplinas importantes para se elaborar e solucionar
problemas complexos da área e não merecem ser deixados de lado! Se
transforme em um(a) biologista computacional de sucesso.
Resolva problemas do Rosalind. Resolver problemas iniciais na

bioinformática é o primeiro grande passo. Então, sugiro que gaste um tempo
resolvendo problemas do Rosalind, que é uma plataforma única para
aprender bioinformática e programação através da resolução de problemas
práticos. Você pode acessar através do link:
http://rosalind.info/problems/list-view/.
Aprenda a gerenciar banco de dados. Esse requisito inclui bancos de dados

relacionais tradicionais que são à base do SQL (por exemplo, MySQL, MariaDB,
SQL Server e Oracle). Você também deve conhecer os bancos de dados
NoSQL que não são relacionais, distribuídos, de código aberto e escalonáveis
horizontalmente (por exemplo, MongoDB). Por fim, existem bancos de dados
públicos (por exemplo, TCGA) e bancos de dados de análise de big data (por
exemplo, Vertica) sobre os quais você deve aprender.
Perfil de Ciências Biológicas

Você, pesquisador (a) ou estudante, oriundo de cursos de biológicas, como

Biologia, Medicina, Biomedicina e afins, necessita de uma atenção maior em
adquirir habilidades computacionais. As dicas que deixo para vocês são:
Aprenda Lógica Computacional. Você, teoricamente, nunca teve contato

com lógica computacional ao longo da graduação, logo, chegou o momento
dela ser introduzida a você. Aprender a elaborar um algoritmo, e conhecer as
ferramentas para solucioná-lo e processá-lo são as principais necessidades
aqui. Com esta habilidade você poderá abordar problemas mais complexos,
utilizando a lógica para resolvê-los.
Aprenda uma linguagem de programação. Saber programar é a habilidade

que te fornece autonomia na bioinformática. Não deixe seu medo de
informática te bloquear, siga em frente! A programação vai te ajudar a
estruturar algoritmos e solucionar problemas. Aposto que será a melhor porta
a ser aberta em toda sua vida! Muitas escolas inclusive estão colocando
programação como grade básica, já que ela estará presente em toda
sociedade nos próximos anos. Se quiser começar, sugiro o Python, Perl, C++
ou R.
Realize cursos de bioinformática. Existem muitos cursos de bioinformática,

canais do YouTube, blogs, entre outros, que tratam sobre assuntos de
bioinformática e trazem visões diferentes de problemas abordados por
diversas áreas. Um curso de bioinformática pode te trazer tanta bagagem,
que você mudará suas visões a respeito da área. Os problemas que podem
ser resolvidos através da bioinformática são inúmeros, e isso é o que a faz ser
tão essencial.
Leia revisões. As revisões ajudam muito a entender os estudos atuais das

áreas de pesquisas. Pergunte ao seu orientador sobre revisões atuais, se não,
busque no Google Scholar por palavras chaves. Revisões mais profundas de
análises e pipelines auxiliam demais quem não está acostumado a utilizar
programas para análises de bioinfo.
Aumente sua capacidade biológica sobre sua pesquisa. Você tem

habilidades em biologia que alguém vindo de exatas não tem, então, use isto
a seu favor. Leia bastante sobre o tema, e busque a dica da leitura das
introduções, no mais, seja curioso (a).
Aprenda Linux. Os sistemas computacionais na bioinformática são, em sua

imensa maioria, todos vinculados a alguma distribuição do GNU. Seja ele
Ubuntu, Fedora, CentOS, entre outros. Você criará uma habilidade realmente

necessária para manipular dados biológicos. Seja parte do time do MKDIR.

Não economize no tempo gasto nesta dica. Não se esqueça de aprender
Bash. Uma grande diferença é se aventurar e acabar se esbarrando em
dificuldades. Mas, primeiro, tente se aventurar! Vários pipelines na
bioinformática já estão pré-estabelecidos, e basta você os executar para
realizar sua análise. Mas aqui vai uma dica: não seja a pessoa que aperta
somente o botão. Sempre busque saber o que está acontecendo em cada
parte e o porquê!
Resolva problemas do Rosalind. Resolver problemas iniciais na

bioinformática é o primeiro grande passo. Então sugiro que gaste um tempo
resolvendo problemas do Rosalind, uma plataforma única para aprender
bioinformática e programação através da resolução de problemas. Mas
antes não se esqueça dos passos anteriores! Você pode acessar através do
link: http://rosalind.info/problems/list-view/.
Aprenda algoritmos a fundo. Algoritmos são ferramentas essenciais para se

equilibrar com problemas complexos na bioinformática. Ter conhecimentos
em construção de algoritmos pode te fazer um pesquisador (a) mais
consolidado (a) em saber criticar e comparar programas e metodologias.
Existem livros diversos de análise de algoritmos. Então, comece a lê-los.
Aprenda Estatística. Essa dica serve para os dois perfis em questão deste
capítulo. Saber aplicar a estatística correta em seus dados é essencial, e
softwares podem te ajudar neste momento, como o SPSS e o SAS, além das
análises em R.
Habilidades gerais
O profissional em Bioinformática pode atuar em várias frentes,
principalmente nas análises em diferentes dados ômicos. Mas quais as
principais habilidades esperadas por um (a) bioinformata? A partir de alguns
artigos da área, pude resumir tais habilidades [2, 3].
Habilidades em bioinformática
Ferramentas de alinhamento de sequência, como BLAST ou Bowtie;
O Genome Analysis Toolkit (GATK);
Software para sequenciamento NGS, microarray, qPCR e análise de dados;
Ferramentas para lidar com dados de sequenciamento, como o samtools;
Para obter conjuntos de dados genéticos, use uma ferramenta como o

Ensembl;
Ferramentas para sistemas de busca de banco de dados, como o Entrez;
Pipeline de análise de dados de NGS.
Mineração de dados e aprendizado de máquina

Técnicas de aprendizado de máquina, como clusterização hierárquica,

agrupamentos, árvore de regressão e árvores de decisão, também são úteis.
Habilidades em áreas generalizadas

Existem habilidades adicionais importantes, como ser multitarefa, possuir
independência, boas habilidades de comunicação, ser curioso, possuir
raciocínio analítico e habilidades gerenciais.
Conhecimento em biologia
Esse requisito varia de acordo com o seu domínio de estudo ou o trabalho
específico ao qual você está se candidatando. Você provavelmente precisará
de conhecimentos sobre biologia molecular, genética, biologia do câncer
e/ou biologia moderna.
Habilidades estatísticas
Sistemas de software estatístico como SPSS e SAS.
Como fazer análises estatísticas com Python ou R.
Habilidades de programação
Uma ou mais destas linguagens de programação: R, Perl, Python, Java e
Matlab.
Ferramentas e bibliotecas de aprendizado de máquina, como Mllib e

Scikit-Learn em Python, são muito úteis para aprender.
Dicas de cursos, livros e afins
Cursos
Uma das principais maneiras de agregar conhecimento em bioinformática,
seja teórico ou prático, é através de cursos. Dentre eles, destaco:
1. EMBL-EBI treinamentos
2. Biologia Molecular
3. Perl – Tutorial
4. Aprenda Perl em 21 dias
5. Curso em vídeo – Python
6. Cursos de R

7. Cursos de R – Video
8. Machine Learning
9. CookBook em R
10. Real Python – Cursos
11. Scripts em Shell – Linux
12. Curso de Linux COMPLETO
13. Curso verão Bioinfo – USP
14. Curso LaCTAD Bioinfo – UNICAMP
15. Cursos de Bioinfo em geral
16. Curso de curta duração – UFRN
Canais YouTube
Muitas vezes, através de uma explicação mais detalhada e visual, o
aprendizado se torna mais consolidado. Muitos canais de YouTube, sendo a
maioria de fora do país, tentam explicar a Bioinformática e temas
relacionados de uma maneira mais simples. Dentre eles, destaco:
1. Online Bioinfo (conteúdo em português) (Profa. Dra. Raquel Minardi – UFMG)
2. MIT OpenCourseWare – MIT 7.91J Foundations of Computational and

Systems Biology playlist
3.Manolis Kellis – MIT CompBio playlist
4. StatQuest with Josh Starmer
5. Bioinformatics Algorithms: An Active Learning Approach
Livros
Assim como muitos preferem ler livros em PDF, também existe o time
daqueles que preferem o livro em papel. Há muitos livros em Bioinformática
lançados, incluindo aqueles focados em atualizações de pipelines, mas
também existem aqueles que descrevem de conceitos básicos até
avançados. Para vocês, deixo estas opções:

1. Cormen, T. H., Leiserson, C. E., Rivest, R. L., & Stein, C. (2002). Algoritmos: teoria
e prática. Editora Campus, 2, 296.
2. Claverie, J. M., & Notredame, C. (2006). Bioinformatics for dummies. John

Wiley & Sons.
3. Lesk, A. M. (2008). Introdução à bioinformática. Artmed.
4. Compeau, P., & Pevzner, P. A. (2018). Bioinformatics Algorithms: An Active

Learning Approach. La Jolla. CA: Active Learning Publishers.
5. Siddesh, G. M. (2020). Statistical Modelling and Machine Learning Principles

for Bioinformatics Techniques, Tools, and Applications. Springer Nature.
6. Yamagishi, M. E. B. (2017). Mathematical Grammar of Biology. Springer

International Publishing.
7. Setubal, J. C., Meidanis, J., & . ̤ Setubal-Meidanis. (1997). Introduction to

computational molecular biology (No. 04; QH506, S4.). Boston: PWS Pub.
8. Alberts, B.; Johnson, A.; Lewis, J.; Raff, M.; Roberts, K.; Walter, P. (2017) Biologia
Molecular da Célula. 6a ed. Artmed, Porto Alegre. 1464p.
9. Griffiths, A.J.F.; Wessler, S.R.; Carroll, S.B.; Doebley, J. (2016) Introdução à

Genética. 11a ed. Guanabara Koogan, Rio de Janeiro. 780p.
10. Lehninger, A; Nelson, D.L.; Cox, M.M. (2018) Princípios de bioquímica de

Lehninger. 7a ed. Artmed, Porto Alegre. 1312p.
11. Material didático da UFRGS de Biologia Molecular. Disponível em:

http://www.ufrgs.br/depbiot/discipl/linksHBF/MatDidat.htm
12. Judith L. Gersting (1995). Fundamentos matemáticos para Ciência da

Computação. 3ª edição. Disponível em:
https://www.cin.ufpe.br/~dmd/inf101/biblio/FMCCJK.pdf
13. Mariano, Diego & Barroso, J.R.P.M. & Correia, Thiago & Melo-Minardi, Raquel.
(2015). Introdução à Programação para Bioinformática com Biopython.
Disponível em: https://diegomariano.com/introducao-a-programacao-para-
bioinformatica-com-biopython/
14. Bioinformática: da Biologia à Flexibilidade Moleculares. Hugo Verli e

colaboradores (2014). Disponível em: https://www.ufrgs.br/bioinfo/ebook/.
Referências

[1] Gauthier, J., Vincent, A. T., Charette, S. J., & Derome, N. (2019). A brief history
of bioinformatics. Briefings in bioinformatics, 20(6), 1981-1996.
[2] Welch, L., Lewitter, F., Schwartz, R., Brooksbank, C., Radivojac, P., Gaeta, B., &
Schneider, M. V. (2014). Bioinformatics curriculum guidelines: toward a
definition of core competencies. PLoS Comput Biol, 10(3), e1003496.
[3] Wu, H., & Palani, A. (2015, October). Bioinformatics curriculum development
and skill sets for bioinformaticians. In 2015 IEEE Frontiers in Education
Conference (FIE) (pp. 1-7). IEEE.
[4] Carvalho, L.M. Como começar na Bioinformática?. Teraytes of Life [Blogs de

Ciência da Unicamp]. Campinas, 21 de julho. 2020. [acesso: 26 de 05 de 2021].
Disponível em: https://www.blogs.unicamp.br/tb-of-life/2020/07/21/como-
comecar-na-bioinformatica.

02
DES TAQ UE S ENSINO
Biologia e Computação: Um Casamento Perfeito

By Editor-in-chief
14 de maio de 2021
Biologia e Computação: Um Casamento Perfeito

Fernanda Stussi D Lage , Fenícia Brito
DOI: 10.51780/978-6-599-275326-02
“O QUE VOCÊ GANHA QUANDO MISTURA UM

CIENTISTA DA COMPUTAÇÃO COM UM
BIÓLOGO?”
Ou, para ser mais preciso, o que você ganha quando eles colaboram? Na
verdade, você obtém mal-entendidos: dores de cabeça com novas
terminologias ou significados diferentes para termos existentes e, às vezes,
até uma incapacidade total de entender os termos um do outro [2]. Cada vez
mais, essa “mistura” vai além de uma equipe multidisciplinar, podendo ser
visto em um único cientista, o Bioinformata.
Os primeiros bioinformatas são anteriores ao aparecimento do termo

“Bioinformática” – da mesma forma que, desde 1856, Mendel se utilizava do
conhecimento da física e da botânica, duas outras ciências da época, para
estudar o que hoje conhecemos como genética. Apesar de não utilizarem o
termo “bioinformática” para descreverem seus trabalhos, esses profissionais
tiveram uma visão clara de como informática, matemática e a biologia
molecular poderiam ser combinadas para responder a perguntas
fundamentais nas ciências da vida. Dessa forma, esses cientistas construíram
conceitos importantes e fundamentos técnicos para a bioinformática [6].

Ainda na década de 1950, já haviam sido publicados artigos relacionados à

Biologia que empregaram computadores eletrônicos digitais em uma
simulação de deriva genética [3]. Enquanto isso, o termo ‘Bioinformática’ em
si aparece pela primeira vez apenas na década de 1970.
Como em um bom casamento, os computadores não apenas ampliaram a

biologia, eles trouxeram consigo ferramentas e questões completamente
novas – conforme observado na Figura 1, como estatísticas, simulação e
gerenciamento de dados, que remodelaram completamente a forma como a
pesquisa biológica está sendo feita [6].
Figura 1. Bioinformática como uma ciência multidisciplinar.

Adaptado de Institute for Systems Biology [4].
Partindo da ótica da biologia molecular, o motivo pelo qual esse casamento

poderia ser considerado perfeito é muito simples: apesar da estrutura do DNA
ter sido desvendada em 1953, a informação nela contida não podia ser “lida”.
Foi como se tivéssemos descoberto o alfabeto utilizado para escrever “o livro
da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas,
que não éramos capazes de lê-las. Foi preciso esperar até fins da década de
1980 para que aparecesse uma “lente de aumento” suficientemente boa (e
automática – na forma de uma máquina) que permitisse a leitura dessas
letrinhas em grandes quantidades. Em 1995, uma única máquina dessas já
conseguia ler milhares de letrinhas por dia. Do lado da computação, foi
também preciso um amadurecimento.
Esse amadurecimento é a tão falada revolução da informática, com

computadores sendo capazes de armazenar cada vez mais informação,
processá-la de modo cada vez mais rápido, a um custo cada vez menor. É
interessante observar que se o sequenciamento automático do DNA tivesse
amadurecido mais rapidamente, digamos com 20 anos de antecedência,
não haveria computadores com poder suficiente para dar conta dos dados
gerados. Na década de 1970, a unidade básica de armazenamento de
informação era o kilobyte – 1024 bytes, aproximadamente 1000 letras. Um
computador de grande porte daquela época tinha alguns kilobytes de

memória. Com tal memória um computador desses não seria capaz de

processar nem sequer o genoma de um vírus de aproximadamente 20
kilobases (ou 20 mil letrinhas), que dirá o genoma humano, com seus 3
bilhões de letrinhas [1].
A evolução conjunta dessas duas ciências também pode ser observada

quanto à quantidade e a integração de dados que podem ser estudados.
Enquanto o sequenciamento de uma única proteína ou gene poderia ter sido
objeto de uma tese de doutorado até o início dos anos 90, um estudante de
doutorado agora pode analisar o genoma coletivo de muitas comunidades
microbianas durante seus estudos de pós-graduação. Hoje em dia, podemos
modelar computacionalmente organismos inteiros – com todas as suas
relações metabólicas – e sua interação com outros seres vivos e o ambiente
– com todas as categorias moleculares consideradas simultaneamente.
Inclusive, se Carl von Linné (também conhecido como Carl Linnaeus), o

botânico sueco e pai da taxonomia, vivesse hoje, ele seria um bionformata.
Como botânico, ele poderia criar uma base de dados para organizar o que
sabemos sobre os genótipos e fenótipos de culturas e plantas modelo. Ou ele
poderia trabalhar com o Gene Ontology Consortium
(http://www.geneontology.org/) para criar vocabulários compartilhados que
unificariam o conhecimento biológico entre os organismos. Assim como o
Systema Naturae de Linné, esses bancos de dados são contribuições
intelectuais importantes para a nossa compreensão da vida.
Ao misturar a Biologia com a Ciência da Computação, se combinam grandes

coleções de dados com bancos de dados e estatísticas, um mapa de
referência para a biologia. Esse mapa, por um lado, se parece com o Google
Street View, permitindo observar em zoom cada subárea da Biologia – como,
por exemplo, a bioquímica estudando as reações químicas que acontecem
no interior de uma célula – e de longe permitindo observar as interações
dessas várias subáreas – buscando entender a quantidade de dados e
sequências estruturais que foram gerados em vários níveis de sistemas
biológicos.
Por outro lado, esse mapa, não está no nível de resolução fornecido pelo
Google Street View. Ao contrário, é um mapa como as cartas náuticas
utilizadas por Colombo, fornecendo um esboço geral, mas muitas áreas estão
incompletas e algumas partes importantes podem estar ausentes e
aguardando para serem descobertas. Mas mesmo com todas essas
deficiências, o mapa ainda é um guia indispensável. O atlas da vida,
fornecido pela biologia computacional, forma o pano de fundo para o
planejamento, execução e interpretação de todos os experimentos de
pequena escala que investigam áreas ainda não mapeadas visando
expandir os limites de conhecimento biológico [6].
Referências

[1] ARAÚJO, Nilberto Dias de; FARIAS, Rodrigo Pessoa de; PEREIRA, Patrícia
Barbosa; FIGUEIRÊDO, Flávia Mota de; MORAIS, Alanna Michely Batista de;
SALDANHA, Livina Costa; GABRIEL, Jane Eyre. A era da bioinformática: seu
potencial e suas implicações para as ciências da saúde. Estudos de Biologia,
[s.l.], v. 30, n. 70/72, p. 143-148, 27 nov. 2008. Pontifícia Universidade Católica do
Paraná – PUCPR. http://dx.doi.org/10.7213/reb.v30i70/72.22819.
[2] BENTLEY, Peter J.. Why Biologists and Computer Scientists Should Work
Together. Lecture Notes In Computer Science, [S.L.], p. 3-15, 2002. Springer
Berlin Heidelberg. http://dx.doi.org/10.1007/3-540-46033-0_1.
[3] DINIZ, W. J. S.; CANDURI, F. REVIEW-ARTICLE Bioinformatics: an overview and

its applications. Genetics and Molecular Research, v. 16, n. 1, 2017.
[4] GAUTHIER, J. et al. A brief history of bioinformatics. Briefings in

Bioinformatics, v. 20, n. 6, p. 1981–1996, 27 nov. 2019.
[5] HAGEN, J. B. The origins of bioinformatics. Nature Reviews Genetics, v. 1, n. 3,

p. 231–236, dez. 2000.
[6] MARKOWETZ, Florian. All biology is computational biology. Plos Biology,

[S.L.], v. 15, n. 3, p. 1-4, 9 mar. 2017. Public Library of Science (PLoS).
http://dx.doi.org/10.1371/journal.pbio.2002050.
[7] What is Systems Biology? Institute for Systems Biology. Disponível em:
<https://isbscience.org/about/what-is-systems-biology/>. Acesso em 01 de
maio de 2020.

03
S EQU EN CI AM E NT O
Sequenciamento de Sanger
By Editor-in-chief
14 de maio de 2021
Sequenciamento de primeira geração: método de Sanger

Fernanda Stussi D Lage , Fenícia Brito
DOI: 10.51780/978-6-599-275326-03
N
este artigo, as autoras apresentam uma breve descrição do
método de sequenciamento de primeira geração proposto
Frederick Sanger e colaboradores em 1977. O método de Sanger
foi revolucionário para biologia, sendo considerado um dos
primeiros métodos amplamente adotados para identificação de sequências
de DNA. Boa leitura!
Introdução
O
termo Bioinformática apareceu pela primeira vez na década
de 1970, em um artigo de Paulien Hogeweg e Ben Hesper. Eles a
definiram como: “o estudo de processos informáticos em
sistemas bióticos” [6]. Nesse estudo, os autores abordaram os
processos de informática em sistemas bióticos em várias escalas [7]. Mais do
que isso, nessa década houve avanços nos métodos de biologia molecular
que permitiram uma manipulação mais fácil do ácido desoxirribonucleico
(DNA). A clonagem de genes e a PCR (Polymerase Chain Reaction, de forma
traduzida “reação em cadeia da polimerase”) eram agora comumente
usadas na preparação de bibliotecas de DNA [1]. Naquela época, surgiam
computadores cada vez mais miniaturizados e mais poderosos (antes da
década de 1970, um ‘minicomputador’ tinha razoavelmente as dimensões e o
peso de um pequeno refrigerador doméstico). Além disso, cada vez mais
surgiam novos softwares mais adequados para lidar com tarefas de
bioinformática [4]. Esse contexto propiciou o surgimento de abordagens de
sequenciamento de nucleotídeos, que pode ser resumido como “a
determinação da ordem dos ácidos nucléicos em determinada amostra
biológica” [5].
As primeiras abordagens foram baseadas no método químico de

degradação de cadeia de Maxam–Gilbert, que permitiu o sequenciamento de
24 pares de bases. Posteriormente, o método de terminação de cadeia
desenvolvido por Frederick Sanger permitiu o sequenciamento do primeiro
genoma completo: o Fago ΦX174 com o total de 5375 bases [2].

O método de Sanger
O método de Sanger, como assim ficou conhecido, também denominado
método didesoxi, é a base da primeira geração de sequenciadores. Ele se
baseia no uso de uma enzima DNA polimerase para sintetizar cadeias de DNA
de comprimentos variados. Nesse método, uma fita de DNA servirá como
molde para fita da qual deseja-se descobrir a sequência. Tome como
exemplo a sequência abaixo:
Figura 1 – Exemplo de uma sequência de nucleotídeos a ser

sequenciada. Fonte: figura adaptada de [9].
Assim, os componentes necessários para uma reação de sequenciamento de

Sanger são (Figura 2):
1. A molécula de DNA que se deseja conhecer a sequência (DNA molde);
2. Todos os quatro tipos de nucleotídeos, também chamados de dNTPs

(desoxinucleotídeos), sendo cada um, separado em um tubo distinto de
reação, ou seja, um tubo para Adenina (dATP), outro para Timina (dTTP),
outro para Citosina (dCTP) e por fim, outro para Guanina (dGTP);
3. Didesoxinucleotídeos, um tipo especial de nucleotídeos também

chamados de ddNTPs (sendo respectivamente denominados ddATP,
ddCTP, ddGTP e ddTTP para se referirem a didesoxinucleotídeos de
Adenina, Citosina, Guanina e Timina). Esses nucleotídeos especiais são
similares aos nucleotídeos comuns, mas com uma diferença chave: falta
um grupo hidroxila na posição 3′ do carbono do anel de sacarose. Em um
nucleotídeo comum, o grupo 3′ hidroxila atua como um “gancho”,
permitindo que um novo nucleotídeo seja adicionado à cadeia existente.
Uma vez que um didesoxinucleotídeo é adicionado à cadeia, não há
hidroxila disponível e nenhum outro nucleotídeo pode ser adicionado, ou
seja, é um nucleotídeo que uma vez incorporado, interrompe a ação da
polimerase e assim termina a cadeia que está sendo sintetizada;
4. Sequência iniciadora (primer);
5. Enzima polimerase.

Figura 2. Componentes necessários para a realização

do sequenciamento de Sanger. Fonte: figura adaptada
de: <Biorender.com>. Acesso em: 04 de abril de 2021.
Para que o sequenciamento ocorra, uma sequência iniciadora com algumas

dezenas de pares de base de nucleotídeos, denominada primer, é projetada
para ser o ponto de partida. Durante a reação, o primer liga-se a uma região
complementar na sequência do DNA alvo, servindo como ponto de partida
para a síntese de uma nova fita. A enzima DNA polimerase é responsável por
adicionar novos nucleotídeos à fita de DNA em crescimento, partindo da
sequência primer (Figura 3).
Figura 3. Exemplo do que ocorre em um tubo de reação

quando apenas o didesoxinucleotídeo ddATP foi adicionado.
Fonte: figura adaptada de: <Biorender.com>. Acesso em:
04 de abril de 2021.
Além disso, uma grande quantidade de cada um dos quatro nucleotídeos

normais (A, C, G e T – respectivamente Adenina, Citosina, Guanina e Timina)
são adicionados separadamente ao DNA a ser sequenciado, que é então
dividido em quatro tubos de reação (Figura 4A). Cada um desses tubos
recebe uma pequena quantidade de didesoxinucleotídeos trifosfatos
(ddNTPs): ddATP, ddGTP, ddCTP ou ddTTP. Como dito anteriormente, os
didesoxinucleotídeos diferenciam-se dos nucleotídeos comuns pela ausência
da hidroxila (OH) no carbono 3’ (Figura 4B). Como esses didesoxinucleotídeos
serão incorporadas apenas ocasionalmente, cada reação produz um
conjunto de cópias de DNA que terminam em diferentes pontos da sequência.
Após a síntese, os produtos das reações A, G, C e T são carregados
individualmente em quatro faixas de um único gel e separados por
eletroforese em gel, um método que separa os fragmentos de DNA por seus
tamanhos. A sequência de DNA da fita recém-sintetizada pode ser
determinada lendo as bandas em ordem, começando no fundo do gel. Uma
vez que cada cópia tem uma letra a mais que a última, pode-se classificar as
cadeias de DNA por tamanho e usar as sequências das bandas para a leitura
da fita (Figura 4).

Figura 4. Esquema geral do sequenciamento de Sanger. (A) A

reação de sequenciamento acontece em tubos contendo cada
tipo de ddNTP e todos os demais componentes. Após a reação, o
conteúdo resultante é lido em uma corrida de eletroforese em
gel que separa os fragmentos sequenciados por tamanho. Lendo
a coluna do gel pode-se recuperar a ordem em que os ddNTPs
foram adicionados e assim recuperar a sequência original. (B)
Diferença entre os didesoxinucleotídeos e os desoxinucleotídeos.
Fonte: figura adaptada de [9].
Exemplo
Para ilustrar como funciona o processo de sequenciamento de Sanger, vamos
demonstrar como a sequência-exemplo AGCTTCAGTC seria sequenciada. A
banda que se encontra na posição mais inferior do gel é a que contém o
menor fragmento sequenciado. Supostamente esse fragmento contém
apenas o primer e o primeiro nucleotídeo da sequência. Começamos olhando
para os menores fragmentos. Conforme observado na Figura 4, se em todas
as quatro faixas a banda de gel aparecer na faixa de reação G, o primeiro
nucleotídeo na sequência será G. Então, se a próxima banda aparecer na
faixa A, o segundo nucleotídeo na sequência será A, e assim por diante [1, 3,
8]. Dessa forma, sucessivamente identificaríamos os nucleotídeos da
sequência, conforme o tamanho dos diferentes fragmentos. Conforme pode
ser observado na Figura 5, vemos que os diferentes fragmentos da nossa
sequência-exemplo são ordenados por tamanho.

Figura 5. Exemplos de fragmentos de DNA de tamanho

diferentes gerados nos tubos com didesoxinucleotídeos durante
o sequenciamento. Fonte: figura adaptada de [9].
Conclusão
Essa metodologia de sequenciamento foi tão inovadora que levou o cientista
Frederick Sanger a receber o Prêmio Nobel de Química em 1980. Nas décadas
seguintes, os avanços técnicos automatizaram, aceleraram drasticamente e
refinaram ainda mais o processo de sequenciamento de Sanger. Essas
automatizações do método de Sanger foram essenciais para a conclusão de
várias etapas do Projeto Genoma Humano em 2001 [2]. Esse método, ficou
conhecido como Sequenciamento de Primeira Geração, em contraste aos
métodos mais novos, desenvolvidos desde 2005, que tornaram o
sequenciamento do genoma ainda mais rápido – e muito mais barato. Esses
novos métodos de sequenciamento, denominados de segunda geração,
foram responsáveis pela diminuição drástica do custo do sequenciamento de
DNA [1]. Tendo como consequência o “boom” do número de genomas
sequenciados que vemos atualmente.
Referências

[1] ALBERTS, Bruce et al. Molecular Biology of the Cell. 6. ed. Nova York: Garland
Science, Taylor & Francis Group, Llc, 2015. 1465 p.
[2] CHIAL, H. DNA sequencing technologies key to the Human Genome

Project. Nature Education 1(1):219, 2018. Disponível em:
<https://www.nature.com/scitable/topicpage/dna-sequencing-technologies-
key-to-the-human-828/#TB_inline?
height=300&width=400&inlineId=trOutLine>. Acesso em: 04 de abril de 2021.
[3] DNA Sequencing. Scitable by Nature Educations. Disponível em:

https://www.nature.com/scitable/definition/dna-sequencing-205/>. Acesso
em 24 de abril de 2020.
[4] GAUTHIER, J. et al. A brief history of bioinformatics. Briefings in

Bioinformatics, v. 20, n. 6, p. 1981–1996, 27 nov. 2019.
[5] HEATHER, James M.; CHAIN, Benjamin. The sequence of sequencers: the
history of sequencing dna. Genomics, [S.L.], v. 107, n. 1, p. 1-8, jan. 2016. Elsevier
BV. http://dx.doi.org/10.1016/j.ygeno.2015.11.003.
[6] HOGEWEG, P.; HESPER, B. Interactive instruction on population interactions.

Computers in Biology and Medicine, v. 8, n. 4, p. 319–327, jan. 1978.
[7] HOGEWEG, P. The Roots of Bioinformatics in Theoretical Biology. PLoS

Computational Biology, v. 7, n. 3, p. e1002021, 31 mar. 2011.
[8] NGUYEN, Tien. The race to sequence the human genome. TedEd. Disponível
em: <https://ed.ted.com/lessons/the-race-to-sequence-the-human-
genome-tien-nguyen#digdeeper>. Acesso em 24 de abril de 2020.
[9] XINGZHAO WEN, SHENG ZHONG. 3D Genome from technology to

visualization. Disponível em: <https://zhonglab.gitbook.io/3dgenome/chap0-
preparation/0.2-sequencing-technologies>. Acesso em: 04 de abril de 2021.

04
DES TAQ UE S G E N ÔM ICA S EQ UEN CI AM E NT O
Sequenciamento NGS: Status e Perspectivas

By Anderson Freitas
12 de junho de 2021
Sequenciamento NGS: Status e Perspectivas

Anderson Santos de Freitas , Helber Barboza Pinto
Revisão: Filipe Zimmer , Diego Mariano
DOI: 10.51780/978-6-599-275326-04
N
ext Generation Sequencing (NGS), ou Sequenciamento de nova
Geração são o conjunto de técnicas de Biologia Molecular e
Bioinformática utilizadas para obter a sequência de ácidos
nucleicos de uma amostra biológica. A utilização dessas
técnicas vêm crescendo vertiginosamente desde a sua criação, quinze anos
atrás, e se expande por várias áreas da ciência como saúde humana,
agricultura e conservação da biodiversidade. Neste artigo mostramos as
principais plataformas de NGS utilizadas atualmente e discutimos as
principais contribuições da técnica, bem como as perspectivas do NGS para o
futuro.
Introdução
O Sequenciamento de Nova Geração (NGS – sigla em inglês para Next
Generation Sequencing ou na tradução “Sequenciamento de Próxima
Geração”) é o nome dado ao conjunto das mais modernas técnicas para a
identificação das sequências de ácidos nucleicos (DNA e RNA) das mais
variadas amostras biológicas, tais como plantas, animais e microrganismos
[1]. São técnicas que se sobrepuseram ao modelo de Sanger [2] após o
Projeto Genoma Humano e que surgiram da necessidade de se produzir
sequenciamentos mais rápidos, econômicos e de qualidade [3].
O primeiro sequenciador de nova geração, o 454, lançado em 2005 (veja

abaixo mais informações), já era capaz de sequenciar com uma capacidade
50x maior que o principal sequenciador de Sanger disponível na época e
causou um certo alvoroço na comunidade científica [3,4]. Num primeiro
momento as técnicas foram criticadas principalmente por produzirem
sequências pequenas, entre 50 e 300 pares de bases, enquanto o método de
Sanger produzia fragmentos na casa dos 750 pb [3], mas o tempo mostrou
que a técnica tinha muito potencial a entregar. Já nos primeiros trabalhos se
sobressaíram características como o grande número de sequências
produzidas, a quantidade de reações que podiam ser paralelizadas e a

possibilidade de detecção direta das sequências, sem o auxílio de um gel de

eletroforese [5].
Hoje, as técnicas disponíveis permitem o sequenciamento cada vez mais

rápido e barato, como mostra uma estimativa do NIH, o Instituto Nacional de
Saúde dos Estados Unidos (Figura 1). No começo do século XXI, o custo para
sequenciar 1 milhão de pares de bases era de US $10 mi, enquanto nos dias de
hoje, apenas 20 anos depois, está na casa de 1 centavo de dólar. É uma
queda abrupta que permitiu a popularização da técnica e sua disseminação
pelo mundo [6].
Com as constantes melhorias nas plataformas de sequenciamento, a

bioinformática evoluiu em conjunto. A capacidade computacional disponível
em 2005 era similar a dos celulares mais básicos hoje em dia e as cadeias
computacionais envolvidas dentro do processo de sequenciamento
precisaram e precisam constantemente se adaptar às novas ferramentas e
facilidades desenvolvidas [7]. Neste artigo, mostraremos as principais
plataformas de sequenciamento de nova geração existentes, o impacto que
elas tiveram para a evolução do conhecimento e as perspectivas para o uso
das tecnologias NGS.
Figura 1. Custo para sequenciamento de um milhão de bases de DNA ao longo do tempo.

Fonte: https://www.genome.gov/.
Principais Plataformas de
Sequenciamento
Pirosequenciamento 454
Após o sucesso na utilização do sequenciamento automatizado usando o
método Sanger pela plataforma ABI (Applied Biosciences), novas formas de
sequenciamento classificados como segunda, terceira geração e quarta
geração, foram desenvolvidos e aperfeiçoados ao longo dos anos. O primeiro
método de sequenciamento de segunda geração lançado foi o

pirosequenciamento, lançado pela plataforma 454 Life Sciences. Esse

método, diferente de Sanger que utilizava a tecnologia com nucleotídeos
marcados (dideoxinucleotídeos), utiliza a detecção de pirofosfato, um
subproduto da incorporação de nucleotídeos, que ao serem incorporados no
produto da reação (DNA de interesse), emitem uma luz que ao ser detectada
permite que o fragmento sequenciado seja identificado [8], como
demonstrado na figura 2.
Figura 2. (a) O primeiro passo do pirosequenciamento é a fragmentação do DNA de

interesse através do método shotgun (fragmentação do DNA em pequenos pedaços),
posteriormente adicionando os chamados adaptadores (b), que se ligam às extremidades
5’ e 3’ dos fragmentos, e auxiliam o DNA fragmentado a se ligar nas beads magnéticas
(esferas de metal com pequenas sequências de DNA complementares) (c). Essas beads
serão “capturadas” uma a uma por gotículas de óleo, para realizar o próximo passo do
pirosequenciamento, que é o PCR em emulsão (d). O PCR em emulsão vai gerar micelas
através da solução oleosa que essa técnica utiliza, gerando “microrreatores” para produção
de novos fragmentos, e assim, ter fragmentos o suficiente para iniciar o processo de
sequenciamento. As microesferas são capturadas individualmente nos poços do suporte de
sequenciamento e, em seguida, são adicionados os reagentes para a reação de
pirosequenciamento. À medida que o sinal de luz é emitido, é identificada a base que é
incorporada em cada poço do sequenciamento (e). Fonte: adaptado de [9].
Essa tecnologia foi muito utilizada para sequenciamento de genomas de

novo, que são genomas ainda não caracterizados. Essa técnica entrou em
desuso próximo ao ano de 2013, com o surgimento das posteriores
tecnologias de sequenciamentos.
Ion Torrent
O Ion torrent é uma plataforma de sequenciamento considerado uma
transição entre a segunda e a terceira geração de sequenciadores, que foi
lançada no mercado no mês de fevereiro de 2010. Diferente do método
utilizado no Sanger e Illumina (falaremos no próximo tópico), que utilizam
nucleotídeos marcados com fluorocromos para detecção da fita sintetizada
no sequenciamento, a tecnologia Ion utiliza a diferença de pH, sendo um
método conhecido como pHmetro que sequencia DNA [10].
O método consiste basicamente em “capturar” o DNA alvo em micropoços,

fragmentar o DNA de interesse, ligar aos adaptadores e amplificar os
fragmentos por PCR em emulsão. Os fragmentos resultantes são colocados
em um chip com micropoços e os nucleotídeos são adicionados um a um por
uma DNA polimerase. Quando o nucleotídeo é incorporado, uma molécula de
H+ é liberada, alterando o pH da solução. Uma espécie de “sensor de íons” é
utilizado para detectar essa mudança na diferença de pH (figura 3). A

intensidade da voltagem detectada pelo sensor é de acordo com a

quantidade de nucleotídeos incorporados, ou seja, quanto mais nucleotídeos
foram adicionados em sequência, maior será a diferença de pH. No caso de
nenhum nucleotídeo ser adicionado, não haverá emissão de sinal no detector
[10]. A vantagem dessa técnica está no não uso de nucleotídeos marcados,
diferente das técnicas de Sanger e Illumina. Com isso, diminui o ruído de
fluorescência que pode ser detectado no sistema. Contudo, esse método
pode apresentar erros na inserção ou deleção de nucleotídeos em regiões de
sequências repetitivas, podendo causar uma saturação no detector de pH do
aparelho.
Figura 3. Imagem ilustrativa sobre o princípio da tecnologia utilizada nos sequenciadores

da plataforma Ion Torrent. A liberação de uma molécula de H+ durante a adição dos
nucleotídeos altera o pH da solução, o que é detectado pelo sensor de íons do aparelho.
Illumina
A Illumina surgiu após aquisição da empresa Solexa, empresa criadora do
método de amplificação em ponte (bridge amplification), método utilizado
até os dias de hoje nos sequenciadores Illumina. Desde então, a Illumina vem
crescendo no mercado e hoje é a maior plataforma de sequenciamento do
mundo. E não é por acaso que a Illumina cresceu tanto. Isso está ligado a
qualidade de sequenciamento e também nos diferentes kits e metodologias
dispostas, facilitando assim o método para diferentes áreas de interesse
como: diagnóstico molecular, oncologia, genética microbiana, genômica
agrária e forense. Existem opções para sequenciar fragmentos menores de
DNA até um genoma completo. Para sequenciamento de RNA, essa
plataforma utiliza uma técnica baseada em cDNA (DNA complementar)
através de um ensaio de transcrição reversa (conversão de moléculas de
RNA para moléculas de DNA através de uma enzima transcriptase reversa), e
assim, sequenciar o RNA total de uma amostra, o mRNA (RNA mensageiro),
pequenos RNAs ou até mesmo genes específicos [9].
A metodologia utiliza o sequenciamento por síntese: utilização de uma DNA

polimerase com nucleotídeos marcados com fluorocromos, os chamados
dideoxinucleotídeos. O método consiste na fragmentação do DNA para a
elaboração da biblioteca de DNA em tamanhos compatíveis com os que a
plataforma exige. Após isso, são adicionados os adaptadores nos fragmentos,
que se ligam nas extremidades dos fragmentos e ao suporte utilizado no

sequenciamento Illumina chamado flow cell. Os adaptadores ligam-se a

sequências complementares no flow cell em formato de ferradura “⋂”,
amplificando os fragmentos através de pontes de amplificação
(amplificação por ponte, figura 4). Após a formação dos chamados ”clusters”,
a DNA polimerase utiliza os adaptadores como primer, se liga e estende
adicionando nucleotídeos marcados, que emitem uma fluorescência e o
equipamento reconhece o nucleotídeo, e assim, vai se formando a sequência
do fragmento que está sendo sequenciado [9,11].
Figura 4. Amplificação em ponte, método utilizado nos equipamentos da tecnologia

Illumina de sequenciamento. Fonte: adaptado de [12].
PacBio
Lançado no ano de 2009 pela Pacific Biosciences, PacBio é considerado como
parte da terceira geração de sequenciadores de DNA. Conhecido por um
processo de sigla SMRT (Single-Molecule Real Time), PacBio revolucionou o
método de sequenciamento pelo modo de operação em tempo real
(observação em tempo real dos nucleotídeos adicionados no fragmento
presente no sequenciamento), método que até então nenhum tipo de
sequenciador era capaz de realizar. O PacBio se baseia em enzimas DNA
polimerase intrínsecas, fixadas em um suporte e que catalisam a reação com
a adição de nucleotídeos complementares à fita molde (figura 5).
Juntamente com a DNA polimerase fixada ao suporte, também há um
detector ZMW (Zero-Mode Waveguide Detector). Nesse processo, ocorre a
utilização de fluorescência para detecção dos nucleotídeos que estão sendo
adicionados no momento da reação. À medida que a enzima DNA polimerase
adiciona nucleotídeos complementares a fita única do DNA molde, esses
nucleotídeos liberam uma fluorescência que é detectado pelo detector ZMW,
que está também fixado ao suporte de vidro do sequenciador. Nesse
processo, é utilizada uma DNA polimerase modificada que tem alta afinidade
por nucleotídeos fosfoligados. Esses nucleotídeos também são modificados
pois possuem seis grupos fosfatos, na qual um deles é ligado ao fluoróforo
[9,12].

Figura 5. Figura demonstrando o princípio da tecnologia PacBio de sequenciamento.

Podemos observar as polimerases fixadas em um suporte físico recebendo o DNA molde
adicionando o trecho complementar com os nucleotídeos fosfoligados. Fonte: adaptado de
[12].
Nanopore
Seguindo na linha de inovação dos processos de sequenciamento tanto para
otimizar o tempo de processamento e uma maior quantidade de dados,
Oxford Nanopore Technologies lançou em 2012 a tecnologia Nanopore,
pertencente a terceira geração de sequenciadores. Diferente de outros
métodos anteriormente lançados, este não utiliza diferença de pH para
detecção de nucleotídeos, tão pouco uso de nucleotídeos marcados ou
métodos de amplificação em ponte. O método Nanopore, apesar de mais
simples, é um poderoso método de pequena e larga escala. A Oxford
Nanopore lançou dois tipos de sequenciadores para revolucionar a arte do
sequenciamento. O MinION é um dispositivo portátil, do tamanho de um pen-
drive, mas extremamente poderoso quando o assunto é sequenciamento de
genomas. Ele é capaz de sequenciar até 1Gb de DNA. Já o segundo
sequenciador que foi lançado, o GridION, que possui tamanho mais
avantajado, é voltado para o sequenciamento de genes em larga escala [13].
A tecnologia Nanopore se baseia no cálculo da diferença de potencial e a

corrente iônica que cada nucleotídeo emite ao passar pelo poro da enzima. O
poro biológico usado é de uma α-hemolisina modificada, contendo uma
ciclodextrina localizada na região barril da α-hemolisina, que “prende” os
nucleotídeos no poro por pelo menos 10 ms (milissegundos), para que haja
tempo hábil para a detecção dos nucleotídeos (figura 6 a, b). Todo esse
processo ocorre sob supervisão de uma DNA polimerase, que controla a
velocidade da reação, que pode ser modificada à medida que é alterada a
corrente elétrica aplicada no sistema (figura 6a) [14,15].

Figura 6. Imagem ilustrando a tecnologia Nanopore de sequenciamento. Observamos a

enzima α-hemolisina com a “supervisão” de uma DNA polimerase que auxilia no controle
da velocidade da reação. Notem que o DNA que está sendo sequenciado passa por dentro
do poro da enzima, e a velocidade com que os nucleotídeos passam por esse poro é
medida pelo aparelho, e assim, é identificado qual nucleotídeo foi incorporado. Fonte:
adaptado de [15].
Contribuições do NGS
O output dos sequenciadores de nova geração consiste primariamente em
um arquivo de extensão .fastq ou .fast5 . Esse arquivo contém as
sequências identificadas pela máquina e informações sobre elas, como a
qualidade da identificação de cada base. Entretanto, esse arquivo sozinho diz
muito pouco sobre as amostras sequenciadas, pois precisa ser processado
adequadamente para que demonstre informações de forma gráfica e
passível de interpretação. Dessa forma, um dos primeiros grandes feitos do
NGS foi promover o avanço dos programas e scripts utilizados para processar
esses dados gerados. Iniciativas como o Scaffold Builder para montagens de
genomas [16], dada2 para a análise de amplicons microbianos [17] e o Canu
para trabalho com reads longos e curtos ao mesmo tempo (como no caso
da utilização de duas plataformas de sequenciamento diferentes para a
mesma amostra) [18] são exemplos de tecnologias que foram desenvolvidas
para resolver problemas que não existiam antes do advento do NGS e
melhorar o processamento de dados.
A combinação de melhores plataformas e ferramentas computacionais mais

potentes permitiu grandes avanços no estudo dos mais diversos temas.
Estudos focados tanto em fechamento de genomas, sequenciamento e
anotação de transcriptomas, metilações, amplicons e muitas outras
abordagens puderam ser feitos de maneira mais rápida e prática numa
escala até então impraticável. O número de artigos que mencionam o termo
“NGS” em algum ponto do seu título ou do seu resumo passou dos 3.300

artigos em 2020, o que demonstra um crescimento exponencial desde 2005.

Isso mostra o quanto a técnica tem se popularizado e ganhado força.
Um dos avanços mais significativos proporcionados pelo NGS tem sido na

luta contra os cânceres. Diversas patologias e padrões genéticos têm sido
encontrados como genes associados a diversos tipos de tumores, fatores
hereditários e aberrações cromossômicas [19]. Um ótimo exemplo de
repercussão mundial foi o caso da atriz Angelina Jolie, que descobriu a
presença de mutações no seu gene BRCA1, uma condição fortemente ligada
ao câncer de mama [20]. Ainda que a associação desse gene com o tumor
seja anterior ao NGS [21,22], somente com as novas técnicas de
sequenciamento é que se tornou acessível se sequenciar um genoma
humano de maneira comercial a fim de identificar possíveis mutações
ligadas não só a câncer, mas também a diversos outros problemas de saúde.
Outra área que tem se beneficiado muito do NGS é a microbiologia. O estudo

de microbiomas, o conjunto dos microrganismos de um determinado
ambiente, avançou largamente devido à facilidade de se acessar o conteúdo
microbiano. Também ajuda nisso o fato de o NGS ser completamente
independente do cultivo, permitindo a identificação de microrganismos não
cultiváveis, que representam mais de 90% da diversidade microbiana
conhecida [23]. O conhecimento hoje já relaciona a microbiota com doenças
e comorbidades humanas como Alzheimer [24], parto prematuro [25,26] e
autismo [27], tratando o ser humano não mais como um organismo, mas
como um “superorganismo” composto de células humanas e microbianas
[28]. O mesmo também é válido para relações dos microrganismos com
plantas [29] e com animais [30].
A montagem e anotação de genomas também foi extremamente

beneficiada pelo NGS. O processo de sequenciamento era extremamente
lento pelo método de Sanger, tendo o rascunho do genoma humano
demorado mais de dez anos para ser finalizado [31,32]. Hoje, com o NGS e as
novas e modernas técnicas computacionais, algumas empresas oferecem o
serviço de sequenciamento completo em uma semana [33]. O reflexo disso
se dá no aumento massivo na quantidade de genomas completos
depositados em bancos de dados públicos, como o Genbank, do NCBI, que
conta com mais de 25 mil genomas sequenciados, a grande maioria
depositados com o auxílio do NGS. O mesmo acontece com os
transcriptomas, o conjunto de RNAs transcritos por um organismo. Além disso,
o sequenciamento NGS permitiu o avanço no conhecimento sobre os genes
expressos em determinadas condições por diferentes espécies através do
sequenciamento do cDNA [34].
O conhecimento adquirido pelo sequenciamento em massa de genomas e

transcriptomas traz grandes benefícios no longo prazo, principalmente
quando associado a estudos de filogenia. Estudos nesse sentido nos
permitem entender a evolução molecular das espécies e como elas se
relacionam tanto entre si quanto com a história da humanidade [35].
Também é possível prospectar genes de interesse, como proteínas de

resistência ao frio para possível inserção em culturas agrícolas [36,37], bem

como rastrear organismos de acordo com sua origem. Este último exemplo
inclui estudos recentes sobre rastreabilidade genética de drogas ilícitas
[38,39] e também da identificação e rastreio das novas variantes do SARS-
CoV-2, o coronavírus responsável pela pandemia global de COVID-19 [40,41].
Conclusões e Perspectivas
O sequenciamento de nova geração é uma ferramenta de grande poder e
que permitiu e tem permitido enormes avanços no conhecimento. O
barateamento e a facilidade de uso das diferentes plataformas tendem a
ampliar cada vez mais seu uso e as suas aplicações. Novas plataformas que
permitem o sequenciamento fora do laboratório (como no caso do MinION)
ainda podem levar o NGS a lugares inóspitos e ainda inexplorados, provendo
as ferramentas necessárias para conhecer toda uma biodiversidade até
então desconhecida [42].
Os avanços esperados em saúde humana também são grandes. Num

contexto em que o termo farmacogenômica ganha cada vez mais destaque,
o NGS se destaca como uma ferramenta essencial para mapear as
individualidades genéticas dos indivíduos e a melhora nos tratamentos
personalizados [43]. Da mesma forma, uma melhor gestão de epidemias e
pandemias pode ser obtida por meio do uso de ferramentas de
sequenciamento rápido, que permitem o mapeamento de novas variantes e
da disseminação das doenças quase que em tempo real. Muito disso vem
sendo mostrado na pandemia da COVID-19, mas também se mostrou
eficiente em epidemias anteriores como SARS, MERS e ebola [44,45].
Além de tudo, o NGS pode estar mudando a forma como comemos. As

revoluções na agricultura e na pecuária passam muito pelo quanto os
avanços da biologia molecular (e inclua-se aqui largamente o NGS) das
últimas décadas. Alimentos transgênicos hoje são uma realidade palpável e
o uso dessas técnicas em animais de produção também começa a gerar
frutos [30,46].
Tudo à nossa volta parece estar ligado ao NGS, e de certa forma está. Se
considerarmos que tudo que é vivo apresenta material genético, tudo pode
ser sequenciado e gerar conhecimento. Não sabemos ao certo para onde
esse conhecimento convergirá, mas as perspectivas são de que cada vez
mais as letras A, T, C e G passem a dizer muito mais sobre o mundo à nossa
volta do que os nossos olhos são capazes de enxergar.
Referências
1. Varstation. NGS: O que é Sequenciamento de Nova Geração? [Internet].
Varsomics. 2019 [cited 2021 May 22]. Available from:

https://blog.varsomics.com/o-que-e-sequenciamento-de-nova-geracao-
ngs/
2. Stussi F, Brito F. Sequenciamento de primeira geração: método de Sanger

[Internet]. Rev. Bras. Bioinformática. 2021 [cited 2021 May 22]. Available from:
https://bioinfo.com.br/sequenciamento-de-primeira-geracao-metodo-de-
sanger/
3. Schuster SC. Next-generation sequencing transforms today’s biology. Nat

Methods. 2007;5:16.
4. Neoprospecta. Plataformas de sequenciamento de DNA [Internet]. Blog

Neoprospecta. 2016 [cited 2021 May 22]. Available from:
https://blog.neoprospecta.com/plataformas-sequenciamento-dna/
5. van Dijk EL, Auger H, Jaszczyszyn Y, Thermes C. Ten years of next-generation

sequencing technology. Trends Genet. 2014;30:418–26.
6. NIH. The Cost of Sequencing a Human Genome [Internet]. Genome.gov. 2020

[cited 2021 May 22]. Available from: https://www.genome.gov/about-
genomics/fact-sheets/Sequencing-Human-Genome-cost
7. Jünemann S, Kleinbölting N, Jaenicke S, Henke C, Hassa J, Nelkner J, et al.

Bioinformatics for NGS-based metagenomics and the application to biogas
research. J Biotechnol. 2017;261:10–23.
8. Ronaghi M, Uhlen M, Nyrén P. A Sequencing Method Based on Real-Time

Pyrophosphate. Science. 1998;281:363, 365.
9. Turchetto-Zolet A, Turchetto C, Guzman F, Silva GA, Sperb Ludwig F, Vetö N.

Capítulo 8 Polimorfismo de Nucleotídeo único (SNP): metodologias de
identificação, análise e aplicações. 2017.
10. Rusk N. Torrents of sequence. Nat Methods. 2011;8:44–44.
11. Liu L, Li Y, Li S, Hu N, He Y, Pong R, et al. Comparison of Next-Generation

Sequencing Systems. J Biomed Biotechnol. 2012;2012:1–11.
12. Metzker ML. Sequencing technologies — the next generation. Nat Rev Genet.
2010;11:31–46.
13. Eisenstein M. Oxford Nanopore announcement sets sequencing sector

abuzz. Nat Biotechnol. 2012;30:295–6.
14. Laszlo AH, Derrington IM, Ross BC, Brinkerhoff H, Adey A, Nova IC, et al.
Decoding long nanopore sequencing reads of natural DNA. Nat Biotechnol.
2014;32:829–33.

15. Schneider GF, Dekker C. DNA sequencing with nanopores. Nat Biotechnol.
2012;30:326–8.
16. Silva GG, Dutilh BE, Matthews TD, Elkins K, Schmieder R, Dinsdale EA, et al.
Combining de novo and reference-guided assembly with scaffold_builder.
Source Code Biol Med. 2013;8:23.
17. Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJA, Holmes SP.
DADA2: High-resolution sample inference from Illumina amplicon data. Nat
Methods. 2016;13:581–3.
18. Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM. Canu:
scalable and accurate long-read assembly via adaptive k-mer weighting and
repeat separation. Genome Res. 2017;27:722–36.
19. Stratton MR, Campbell PJ, Futreal PA. The cancer genome. Nature.
2009;458:719–24.
20. Grady D, Parker-Pope T, Belluck P. Jolie’s Disclosure of Preventive

Mastectomy Highlights Dilemma. N Y Times [Internet]. 2013 May 14 [cited 2021
May 24]; Available from:
https://www.nytimes.com/2013/05/15/health/angelina-jolies-disclosure-
highlights-a-breast-cancer-dilemma.html
21. Amendola LCB, Vieira R. A contribuição dos genes BRCA na predisposição

hereditária ao câncer de mama. Rev Bras Cancerol. 2005;51:6.
22. Robson M, Gilewski T, Haas B, Levin D, Borgen P, Rajan P, et al. BRCA-

associated breast cancer in young women. J Clin Oncol. Wolters Kluwer;
1998;16:1642–9.
23. Hasman H, Saputra D, Sicheritz-Ponten T, Lund O, Svendsen CA, Frimodt-

Møller N, et al. Rapid Whole-Genome Sequencing for Detection and
Characterization of Microorganisms Directly from Clinical Samples. J Clin
Microbiol. 2014;52:139–46.
24. Itzhaki RF, Lathe R, Balin BJ, Ball MJ, Bearer EL, Braak H, et al. Microbes and
Alzheimer’s Disease. J Alzheimers Dis JAD. 2016;51:979–84.
25. Romero R, Hassan SS, Gajer P, Tarca AL, Fadrosh DW, Bieda J, et al. The
vaginal microbiota of pregnant women who subsequently have spontaneous
preterm labor and delivery and those with a normal delivery at term.
Microbiome. 2014;2:18.
26. de Freitas AS, Dobbler PCT, Mai V, Procianoy RS, Silveira RC, Corso AL, et al.
Defining microbial biomarkers for risk of preterm labor. Braz J Microbiol

[Internet]. 2019 [cited 2019 Jul 23]; Available from:

http://link.springer.com/10.1007/s42770-019-00118-x
27. Johnson S, Hollis C, Kochhar P, Hennessy E, Wolke D, Marlow N. Autism

Spectrum Disorders in Extremely Preterm Children. J Pediatr. 2010;156:525-
531.e2.
28. Sleator RD. The human superorganism – Of microbes and men. Med
Hypotheses. 2010;74:214–5.
29. Turner TR, James EK, Poole PS. The plant microbiome. Genome Biol.
2013;14:209.
30. de Freitas AS, de David DB, Takagaki BM, Roesch LFW. Microbial patterns in
rumen are associated with gain of weight in beef cattle. Antonie Van
Leeuwenhoek. 2020;113:1299–312.
31. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, et al. The
Sequence of the Human Genome. Science. American Association for the
Advancement of Science; 2001;291:1304–51.
32. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial
sequencing and analysis of the human genome. Nature. Nature Publishing
Group; 2001;409:860–921.
33. The Sequencing Center. How long does genome sequencing take?
[Internet]. 2020 [cited 2021 May 25]. Available from:
https://thesequencingcenter.com/knowledge-base/how-long-does-
genome-sequencing-take/
34. Clementi M, Menzo S, Bagnarelli P, Manzin A, Valenza A, Varaldo PE.

Quantitative PCR and RT-PCR in virology. Genome Res. 1993;2:191–6.
35. Wang H, Xu X, Vieira FG, Xiao Y, Li Z, Wang J, et al. The Power of Inbreeding:
NGS-Based GWAS of Rice Reveals Convergent Evolution during Rice
Domestication. Mol Plant. 2016;9:975–85.
36. Carvalho EL, Maciel LF, Macedo PE, Dezordi FZ, Abreu MET, Victória F de C, et
al. De novo Assembly and Annotation of the Antarctic Alga Prasiola crispa
Transcriptome. Front Mol Biosci [Internet]. Frontiers; 2018 [cited 2021 May 25];4.
Available from:
https://www.frontiersin.org/articles/10.3389/fmolb.2017.00089/full
37. Mizrahi T, Heller J, Goldenberg S, Arad Z. Heat shock protein expression in

relation to reproductive cycle in land snails: Implications for survival. Comp
Biochem Physiol A Mol Integr Physiol. 2011;160:149–55.

38. Freitas AS, Anunciação RR, D’Oliveira-Matielo CB, Stefenon VM. Chloroplast
DNA: A Promising Source of Information for Plant Phylogeny and Traceability.
2018;1:4.
39. Matielo CBD, Lemos RPM, Sarzi DS, Machado L de O, Beise DC, Dobbler PCT,
et al. Whole Plastome Sequences of Two Drug-Type Cannabis: Insights Into the
Use of Plastid in Forensic Analyses. J Forensic Sci. 2020;65:259–65.
40. Resende PC, Naveca FG, Lins RD, Dezordi FZ, Ferraz MVF, Moreira EG, et al.
The ongoing evolution of variants of concern and interest of SARS-CoV-2 in
Brazil revealed by convergent indels in the amino (N)-terminal domain of the
Spike protein. medRxiv. Cold Spring Harbor Laboratory Press;
2021;2021.03.19.21253946.
41. Motayo BO, Oluwasemowo OO, Olusola BA, Akinduti PA, Arege OT, Obafemi
YD, et al. Evolution and genetic diversity of SARS-CoV-2 in Africa using whole
genome sequences. Int J Infect Dis IJID Off Publ Int Soc Infect Dis. 2021;103:282–
7.
42. Dini-Andreote F, van Elsas JD, Olff H, Salles JF. Dispersal-competition

tradeoff in microbiomes in the quest for land colonization. Sci Rep. Nature
Publishing Group; 2018;8:9451.
43. Rogers SL, Patrinos GP, Mitropoulou C, Formea CM, Jones JS, Brown BG.
Conference report: inaugural Pharmacogenomics Access and Reimbursement
Symposium. Pharmacogenomics [Internet]. Future Medicine; 2021 [cited 2021
May 29]; Available from: https://www.futuremedicine.com/doi/10.2217/pgs-
2021-0016
44. Naveca FG, Nascimento V, de Souza VC, Corado A de L, Nascimento F, Silva

G, et al. COVID-19 in Amazonas, Brazil, was driven by the persistence of
endemic lineages and P.1 emergence. Nat Med [Internet]. 2021 [cited 2021 May
29]; Available from: http://www.nature.com/articles/s41591-021-01378-7
45. Van Puyvelde S, Argimon S. Sequencing in the time of Ebola. Nat Rev
Microbiol. Nature Publishing Group; 2019;17:5–5.
46. Van Emon JM. The Omics Revolution in Agricultural Research. J Agric Food
Chem. 2016;64:36–44.

05
DES TAQ UE S G E N ÔM ICA
Tipos de cobertura em sequenciamento

genômico
By Diego Mariano
2 de julho de 2021
Cobertura horizontal versus cobertura vertical: tipos de cobertura em

sequenciamento genômico
Diego Mariano
Revisão: Thiago de Jesus Sousa
DOI: 10.51780/978-6-599-275326-0
C
obertura é um conceito bastante citado quando se trata de
sequenciamento de genomas. Dependendo do contexto, o
conceito de cobertura pode ter diferentes significados, o que
pode gerar um pouco de confusão. Neste artigo, serão
apresentadas terminologias para diferenciar os dois tipos de cobertura:
vertical e horizontal. Em sequenciamento NGS, cobertura vertical indica a
quantidade média de leituras que cobrem cada região de um genoma com
base no mapeamento (por exemplo, profundidade de cobertura de 30x).
Cobertura horizontal indica o percentual estimado do genoma que foi
sequenciado, ou seja, o quanto do genoma final está representado no total
de bases sequenciadas (por exemplo, 95% de amplitude de cobertura).
Introdução
Durante o projeto de sequenciamento do genoma humano, o conceito de
cobertura era utilizado para identificar o quanto faltava para conclusão.
Temos que levar em consideração que o Projeto Genoma Humano levou 13
anos para ser concluído. Logo, naquela época, era relevante saber, à medida
do tempo, qual o percentual dos três bilhões de pares de base (3 Gb) do
genoma humano já havia sido identificado e quanto ainda faltava. Com o
surgimento da técnica de sequenciamento de Shotgun, o conceito de
cobertura ganhou um novo sentido.
O sequenciamento Shotgun, também denominado como sequenciamento

WGS (Whole Genome Shotgun), requer etapas de fragmentação e
amplificação (Figura 1). Essas etapas são necessárias uma vez que os
sequenciadores de alta performance conseguiam identificar apenas
pequenos fragmentos de DNA. Leve em consideração que um genoma possui
aproximadamente 3.000.000.000 pb e um sequenciador da época só
conseguia identificar fragmentos bem menores do que 1.000 pb. Apesar disso,
a estratégia de Shotgun representou uma revolução, uma vez que permitia
que uma imensa quantidade de fragmentos fosse lida ao mesmo tempo,

reduzindo consideravelmente o tempo necessário para o sequenciamento.

Cabia depois a computadores identificar a ordem correta dos fragmentos,
estabelecendo assim a sequência completa do genoma (popularmente
conhecido como o processo de montagem do genoma).
Figura 1. Representação do sequenciamento WGS. As cores as fitas foram usadas para

representar sequências diferentes. A sequência completa do genoma só é identificada após
a etapa de montagem in silico. Fonte: Adaptado de [1] (via SpringerImages CC BY-SA
2.5).
Entretanto, nem tudo são flores! Na teoria, várias cópias do genoma completo
fragmentadas em posições aleatórias poderiam ser reordenadas por meio de
algoritmos de montagem. Mas na prática, diversos problemas dificultam esse
processo. Algumas regiões do genoma podem ser perdidas durante o
processo de fragmentação e/ou amplificação. Outras podem ser menos
propensas ao tipo de sequenciamento adotado (vide o caso dos
homopolímeros na plataforma Ion Torrent, em que há grande dificuldade em
identificar repetições de um mesmo nucleotídeo em sequência, como a
sequência “TTTTTT”). Além disso, em determinados genomas há sequências
repetitivas que atrapalham o processo de reordenação in silico, como regiões
de transposons, repetições tandem e regiões codificadoras de RNA
ribossomal. Com tudo isso, é possível concluir que, ao ordenar todos os
fragmentos lidos em um sequenciamento, nem todas as partes do genoma
serão representadas por uma mesma quantidade de sequências.
Falando de uma forma bem leiga, imagine que desejamos sequenciar um

pequeno fragmento hipotético de DNA representado no quadro vermelho
(Figura 2). Finja que não conhecemos a sequência final. Então, seis cópias
dessa mesma sequência foram cortadas em fragmentos de 10 a 20
nucleotídeos e, em seguida, sequenciadas (vamos simplificar alguns detalhes
do processo para facilitar o entendimento). Tenha em mente que apenas as

sequências no quadro cinza (Figura 2) são conhecidas após o

sequenciamento. Devemos ordená-las para obter a sequência original
(também chamada de sequência consenso). Ao sobrepô-las, deveríamos ser
capazes de obter seis cópias exatas da sequência final, mas perceba que isso
não acontece. Tome como referência, por exemplo, o 27º nucleotídeo da
sequência (o “A” grifado em preto na Figura 2). Veja que, na caixa cinza,
apenas três deles estão empilhados. Nesse caso, dizemos que o 27º par de
base da sequência possui uma cobertura de 3x. Veja que outros trechos
possuem uma cobertura maior (como o G na posição 29) e outros menor
(como o A na primeira posição). A cobertura final será a média do número de
vezes em que cada base é representada nas leituras (ou a soma do total de
nucleotídeos nas leituras dividido pelo tamanho final da sequência). No
exemplo abaixo, a sequência tem 67 pb e as leituras têm, somadas, 160 pb.
Logo, temos uma cobertura média de aproximadamente 2,4x.
Figura 2. Alinhamento de um conjunto de fragmentos de DNA sequenciados. No quadro

vermelho, pode-se observar a sequência consenso formada pela sobreposição dos
fragmentos. Note que se o total estimado de bases da sequência for maior, o cálculo da
cobertura seria impactado. Por exemplo, se o tamanho estimado for de 100 pb e o
sequenciamento obtiver leituras que somam 160 pb, logo podemos dizer que a cobertura
esperada por nucleotídeo seria de 1,6x. Como a montagem dos fragmentos foi capaz de
gerar uma sequência consenso de apenas 67 pb, logo a cobertura poderia ser calculada
com base nesse valor. Nesse caso, obtém-se uma profundidade de cobertura de 2,4x, que
também pode ser chamada de cobertura empírica por base [3]. Fonte: figura adaptada
de [2].
Agora, digamos que um experimento de bancada indicou que o fragmento

de DNA deveria ter 100 pares de base. Entretanto, o processo de montagem
indicou que apenas 67 pares de base foram identificados. Trinta e três pares
de base foram perdidos em algum momento. Dessa forma, não aparecem na
nossa montagem final. Isso indica que conseguimos alcançar apenas 67% da
cobertura esperada.
Definição de cobertura
No exemplo anterior, dissemos que a sequência possuía uma cobertura de
2,4x e de 67%. Qual o valor indica a real cobertura? A resposta é ambos.
Podemos dizer que 2,4x é a profundidade de cobertura e 67% é a largura da
cobertura no genoma final.
Em um trabalho em 2014, Sims e colaboradores [3] definiram que a amplitude

de cobertura (breadth of coverage) de um genoma é o percentual de bases
do genoma original que puderam ser identificadas. Na teoria, espera-se que

100% das bases sejam representadas em um bom sequenciamento, ou seja,

cobertura de 100%. Já o número de vezes que uma base específica é
representada é denominado como profundidade da cobertura (depth of
coverage) [3].
Em minha dissertação de mestrado [2], optei por diferenciar os dois tipos de

cobertura como largura de cobertura, para representar o percentual de
bases sequenciadas, e profundidade de cobertura, para indicar o valor
médio que cada base é representada. Entretanto, em uma conversa informal
que tive alguns anos atrás, o Prof. Dr. Henrique Figueiredo do departamento
de veterinária da Universidade Federal de Minas Gerais propôs uma forma
mais facilmente compreensíveis de se diferenciar os tipos de cobertura,
separando-as em horizontal e vertical. A cobertura horizontal seria o
percentual do genoma representado nas leituras (equivalente à largura de
cobertura) e a cobertura vertical seria a quantidade média de vezes que
cada base é representada (ou seja, a profundidade de cobertura). A Figura 3
ilustra os dois tipos de cobertura: vertical e horizontal.
Figura 3. Representação da cobertura vertical (profundidade de cobertura) e da cobertura

horizontal (largura de cobertura). Em azul vemos as leituras sequenciadas (observe que
nesse exemplo foram utilizadas leituras pareadas). Regiões sem cobertura e com baixa
cobertura são indicadas pelas caixas cinza. Fonte: próprio autor.
Glossário de sinônimos
Cobertura horizontal: cobertura, amplitude de cobertura, largura de
cobertura, percentual do genoma sequenciado.
Cobertura vertical: cobertura, profundidade de cobertura, cobertura

esperada (calculada antes do sequenciamento), cobertura empírica por
base (calculada pós-sequenciamento).
Referências
[1] Commins, J., Toft, C., Fares, M. A. – “Computational Biology Methods and
Their Application to the Comparative Genomics of Endocellular Symbiotic
Bacteria of Insects.” Biol. Procedures Online (2009).

[2] Mariano, D. SIMBA: uma ferramenta Web para gerenciamento de

montagens de genomas bacterianos. Dissertação de mestrado. Universidade
Federal de Minas Gerais (2015).
[3] SIMS, David; SUDBERY, Ian; ILOTT, Nicholas E.; HEGER, Andreas; PONTING, Chris
P. Sequencing depth and coverage: key considerations in genomic analyses.
Nature Reviews. Volume 15, p. 121-132. 2014.

06
DES TAQ UE S G E N ÔM ICA
Imunobioinformática para leigos

By Wylerson Nogueira
8 de junho de 2021
Imunobioinformática para leigos

Wylerson Nogueira
DOI: 10.51780/978-6-599-275326-06
N
Download PDF
este artigo, vamos falar sobre imunobioinformática. Você sabe

o que é isso? Já ouviu falar sobre? Pois bem, como o nome
sugere a imunobioinformática é sim a junção dos vastos
conhecimentos da imunologia com a prática de estratégias de
bioinformática. Ou também pode ser entendida como a aplicação das
diversas ferramentas e estratégias de bioinformática voltados aos desafios
no campo da imunologia. Mas que tipos de desafios? E quais estratégias? É
sobre isso que vamos conversar neste capítulo.
Vale lembrar que existem diferenças entre a imunobioinformática e a

imunologia computacional. Por imunologia computacional entendemos os
trabalhos que visam compreender a imensa complexidade do sistema imune.
Sejam através do desenvolvimento de abordagens computacionais
poderosas – processando, modelando e integrando grandes volumes de
dados imunológicos – ou pela exploração de mecanismos moleculares
subjacentes à dinâmica das células imunológicas, através de métodos
biológicos de alto rendimento. Já a imunobioinformática está diretamente
relacionada com o desenvolvimento de profilaxias contra agentes
infecciosos, através da prospecção e da descoberta de candidatos
profiláticos, quer sejam estes alvos de droga ou candidatos a vacina, como
vamos ver a seguir.
Além disso, aqui nós vamos falar sobre os tópicos de vacinologia reversa,
genômica subtrativa e, para explicitar o trabalho da área, vamos fechar com
um pequeno estudo de caso, aplicando algumas das técnicas abordadas em
imunobioinformática.
Mas antes de começarmos, gostaríamos de relembrar com você, leitor,

alguns conceitos básicos de imunologia que serão importantes para a nossa
conversa fluir mais adiante. Mas não se preocupe, vamos com bastante
calma.

Imunologia básica
O primeiro desses conceitos básicos em imunologia clássica é o dos tipos de
imunidade do sistema imune. Mais especificamente, as imunidades inata e
adaptativa.
Nós, humanos, temos diversos tipos distintos de proteção contra agentes

externos e alheios ao nosso corpo, sejam esses patógenos (i.e., bactérias,
vírus, protozoários) ou partículas alergênicas de qualquer natureza, como
pólen, glúten, dentre outras.
Figura 1. Barreiras físicas, químicas e biológicas da primeira

linha de defesa do organismo humano. Fonte: Delves et al.,
2014 [1].
Para nos proteger dessas várias ameaças e assim evitar possíveis invasões
que desequilibrem a saúde do indivíduo, o nosso organismo dispõe de
diversas barreiras físicas, químicas e biológicas, como a pele, cílios das
pálpebras e sistema respiratório, lágrimas, dentre outras (Figura 1). Entretanto,
no caso de uma invasão inevitável, entram em ação as nossas próximas
linhas de defesa da saúde: as linhagens celulares do sistema imune [1].
Essas células podem ser de diversos tipos e cumprem distintas funções nesse
campo de batalha. Por exemplo, as células de leucócitos, neutrófilos e
macrófagos atuam diretamente no combate de agentes infecciosos.
Anticorpos produzidos pelos linfócitos do tipo B, ou células do tipo B, também
podem atuar bloqueando a ação e eliminando patógenos.
A resposta natural e inespecífica do organismo a ameaças do ambiente é

conhecida como ~imunidade inata~, sendo os seus principais mecanismos a
fagocitose, a liberação de mediadores inflamatórios e a ativação de
proteínas. Contudo, quando ela não é o suficiente para responder às

ameaças enfrentadas por um indivíduo, podemos contar com a nossa

~imunidade adaptativa~ [1].
A imunidade adaptativa tem como propósito o de evoluir as defesas de um

organismo, através da exposição e resposta específica a estímulos de
agentes externos, causadores de doenças ou não. Essa imunidade, também
conhecida como adquirida, depende da ativação de células especializadas,
chamadas de linfócitos. As principais classes de linfócitos são os linfócitos do
tipo B e do tipo T. Eles são responsáveis por mediar os dois tipos de
imunidade adquirida que possuímos: as imunidades humoral e celular
(Figura 2).
Figura 2. Tipos de imunidade adquirida. Na imunidade humoral, as células B secretam

anticorpos que previnem infecções e microrganismos extracelulares. Na imunidade
mediada por célula, as células T ativam macrófagos a matar microrganismos fagocitados
ou então destroem diretamente células infectadas. Fonte: Abbas et al., 2015 [2].
A imunidade humoral se dá pelo reconhecimento específico de antígenos

pelos chamados anticorpos, processo que é mediado pelos linfócitos B. Já a
imunidade celular é o nosso mecanismo de defesa específico que é mediado
por células, os linfócitos T. Os linfócitos T se subdividem em células T auxiliares
(T helper) e células T citotóxicas (T cytotoxic), chamados também de células

TCD4+ e TCD8+, respectivamente (Figura 2). A importância dessas distintas

linhagens de célula T se deve pelos distintos tipos de infecção combatidos
por elas. Enquanto as células TCD4+ combatem agentes estranhos dispersos
no meio extracelular, como vírus, toxinas e bactérias, as células TCD8+ agem
contra perturbações intracelulares, seja contra células tumorais ou
infectadas por vírus, por parasitas unicelulares, dentre outros [2].
Você sabia?
As células B e T possuem esse nome especial em função dos principais

órgãos produtores desses tipos de linfócitos! Enquanto os linfócitos T são
predominantemente produzidos no Timo, os linfócitos B são produzidos
pela medula óssea – do inglês, Bone narrow.
Embora alguns antígenos possam estimular diretamente a resposta

imunitária, as células T precisam de um mediador para realizar o seu
reconhecimento, a célula apresentadora de antígenos (APC). Como os
linfócitos T não podem se ligar ao antígeno diretamente, ele precisa ter os
peptídeos decompostos do antígeno apresentados a ele por uma APC. Essa
“apresentação” acontece pela junção dos receptores de célula T (TCR) com
os complexos principais de histocompatibilidade (MHC), moléculas presentes
na superfície celular de linhagens celulares que podem atuar como APC, tais
como macrófagos, células dendríticas, células de Langerhans e de Kupffer. E é
no interior das moléculas do complexo MHC que os peptídeos dos antígenos
decompostos são expostos (Figura 3) [2,3].
Figura 3. Ilustração esquemática

do modelo de reconhecimento de
um complexo peptídeo-MHC por
um receptor de célula T (TCR).
Fonte: Abbas et al., 2015 [2].
Existem dois tipos de MHC: MHC classe I e MHC classe II. MHC classe I se
apresenta a células T citotóxicas, TCD8+, e MHC classe II se apresenta às
células T auxiliares, TCD4+. Os termos “CD4” e “CD8” positivos fazem
referência a expressão na superfície dos linfócitos T dessas moléculas que

atuam como correceptores específicos de MHC classe II e I, respectivamente.

Essas moléculas de MHC II e I são altamente variáveis, os genes que as
expressam são extraordinariamente polimórficos, sendo essa uma das
maiores razões para a diversidade do sistema imune e sua capacidade de
responder e se adaptar a ameaças nunca vistas antes pelo organismo [4].
Além disso, um último detalhe importante acerca desse reconhecimento é

que o reconhecimento molecular não se dá pelo contato com a estrutura
completa dessas estruturas proteicas, apenas uma mínima porção dessas
moléculas entra em contato direto com os receptores. O quê? Mas como
assim? Vamos explicar.
Essas frações mínimas se chamam ~epítopos~. Epítopos são curtas

sequências de aminoácidos (AAs), sendo os fragmentos de menor tamanho
possível capazes de induzir a sua identificação, seja por receptores ou por
anticorpos. Esses fragmentos não são necessariamente lineares, ou seja,
reconhecidos em sua estrutura primária de AAs. Quando uma forma
tridimensional específica de estrutura proteica é necessária para o
reconhecimento, chamamos essa sequência mínima de epítopo
conformacional (Figura 4). Por conta dessa flexibilidade estrutural de
sequências de resíduos, o tamanho de epítopos costuma variar dentre 8 e 14
AA, sendo mais comum fragmentos de 9 resíduos de AA (9-mer) [5].
Figura 4. Natureza estrutural dos tipos de epítopos. Os epítopos (mostrados em laranja e

azul) podem depender da dobra da proteína (conformação), bem como da estrutura
primária. Alguns determinantes são acessíveis nas proteínas nativas e são perdidos na
desnaturação (A), ao passo que outros são expostos somente na proteína não dobrada (B).
Fonte: Abbas et al., 2015 [2].
Ufa, agora sim! Acabamos de revisar aspectos básicos em imunologia e

estamos prontos para embarcar nos tópicos de imunobioinformática! O
próximo tópico se chama Vacinologia Reversa, estratégia voltada para
prospecção de candidatos à vacina para o combate de doenças infecciosas.
Apesar do que o nome indica, os princípios de RV também auxiliam na busca
por alvos para o diagnóstico de doenças.

Você está pronto? Vamos lá!
Vacinologia Reversa
Para começar: as vacinas representam a estratégia profilática mais eficaz na
história da medicina para o controle da propagação de doenças infecciosas
– aumentando sem precedentes a expectativa de vida humana. Desde o seu
advento, a erradicação da varíola e a redução massiva de outras doenças
infecciosas, como a poliomielite, o sarampo e a difteria, foram algumas das
principais conquistas em saúde pública do século passado, todas
alcançadas através da vacinação [6].
Você sabia?
Os termos “vacina” e “vacinação” surgiram em 1796, com os estudos de

Edward Jenner acerca do desenvolvimento de vacinas contra a varíola,
evitando a infecção ao se isolar materiais a partir da varíola bovina para
imunização de pacientes. Do latim vaccinus, que significa ‘derivado da
vaca’.
Com base nos princípios de Pasteur, “isolar, inativar e injetar”, os métodos

tradicionais utilizados em vacinas de primeira e segunda geração
concentraram-se em organismos inteiros, marcando o início do
desenvolvimento de vacinas [7]. Com a disponibilidade do sequenciamento
de genoma completo do final do século XX, a predição computacional de
antígenos assumiu o foco dos estudos para o desenvolvimento de vacinas de
terceira geração [8].
Em especial, com o auxílio da bioinformática e o advento da vacinologia

reversa (Reverse Vaccinology – RV). Por exemplo, o primeiro trabalho que
aplicou a abordagem de RV, contra a bactéria Neisseria meningitidis
sorogrupo B (MenB), levou menos de 18 meses para identificar mais vacinas
candidatas em MenB do que foi descoberto durante os últimos 40 anos por
métodos convencionais, ou seja, isso acelerou drasticamente o processo de
desenvolvimento da vacina (Figura 5) [9].

Figura 5. Pipeline de vacinologia reversa aplicada a MenB. A partir das 2.158 open reading
frames (ORFs) identificadas no genoma sequenciado MC58 em 1998, as análises de
bioinformática previram 570 proteínas que eram expostas na superfície, secretadas ou
homólogas a fatores de virulência conhecidos. Cinco antígenos finalmente selecionados
foram co-formulados com vesículas de membrana externa (OMV) e considerados seguros,
imunogênicos e protetores em estudos clínicos em adultos, adolescentes e crianças,
recebendo autorização de comercialização em 2013. Fonte: adaptado de Tordello et al.,
2017 [10].
O termo “reversa” de RV faz referência ao caminho de descoberta invertido

usado para busca de novas vacinas. Mas, como assim? Bem, na vacinologia
clássica, os imunizantes eram desenvolvidos a partir do organismo inteiro,
com vacinas a base de patógenos inteiros, enfraquecidos ou quebrados em
fragmentos. Nesse sentido, a RV faz o caminho contrário – buscando dentro
do(s) genoma(s) por possíveis proteínas, ou partes de proteínas, que, como
um conjunto mínimo antigênico, sejam capazes de elicitar resposta imune
adaptativa específica contra esse mesmo patógeno [11].
Em suma, a vacinologia reversa analisa a sequência genômica de um

patógeno, partindo do genoma completo ao invés do organismo inteiro, e
identificando todo o seu catálogo de proteínas com potencial de serem
expressas pelo microrganismo a qualquer momento. Esta estratégia tem
também a vantagem de ser aplicável tanto a espécies cultiváveis quanto a
não cultiváveis [12].
De modo geral, em estudos de RV, as Open Reading Frames (ORFs) derivadas

da sequência de um genoma são analisados por um conjunto de softwares
(como por exemplo, Vaxign2 [13], NetMHC 4.0 [14], MED. 1.0 [5]) para aferir e
predizer atributos desejáveis dos prováveis produtos gênicos das ORFs como
candidatos à vacina (Figura 6). Em especial, em atenção às proteínas
exportadas, pois estas são essenciais nas interações hospedeiro-patógeno,
tais como: adesão às células hospedeiras; invasão intracelular; danos
teciduais; resistência ao estresse ambiental da maquinaria de defesa; e
mecanismos para subversão da resposta imune do hospedeiro [15–18].

Figura 6. Exemplo de análise in silico da sequência de uma proteína somando várias

abordagens. (A) Identificação de grupos de epítopos coincidentes sobrepostos (CEG)
usando distintas ferramentas de imunobioinformática. (B) Predição da topologia (com base
na ferramenta Phobious) e localização da região CEG (amarelo) na estrutura da proteína.
Fonte: Couto et al., 2021 [19].
Fatores como localização subcelular e o número de domínios

transmembranares são frequentemente considerados na filtragem
bioinformática para um alvo vacinal, uma vez que proteínas da membrana
externa contendo mais de uma hélice transmembrana são, em geral, difíceis
de clonar e purificar [20]. Com a disponibilidade de cepas não patogênicas
para diversas espécies, elementos exclusivos de genomas de linhagens
virulentas também começaram a ser avaliados em estudos de RV [21]. Além
disso, os alvos de vacina preditos são analisados quanto à similaridade de
sequência com proteínas do hospedeiro, seja este humano ou animal, a fim
de evitar a ineficácia de candidatos à vacina por resistência autoimune [22].
Desde a concepção da RV, o progresso na análise genômica, proteômica e

transcriptômica surtiu um enorme impacto no modo com que novos
antígenos estão sendo identificados. Para otimizar vacinas baseadas em
epítopos, tornou-se uma tarefa essencial prever epítopos imunológicos com
base na estrutura de antígenos protetores. Avanços nas tecnologias de
clonagem de linfócitos B permitiram a geração de anticorpos monoclonais
humanos a partir de células B de memória e plasmablastos, permitindo a
construção de bancos de dados dessas estruturas e, assim, a triagem de
alvos contra anticorpos humanos e uma melhor caracterização da
imunogenicidade dos alvos selecionados [23].
Além disso, ao invés de buscar por candidatos à vacina em uma única

linhagem de um patógeno, é possível realizar a prospecção em inúmeros
genomas coletivamente, explorando possíveis antígenos para toda a espécie.
A disponibilidade de grande número de genomas nos bancos de dados
públicos levou ao surgimento da RV Pangenômica (PGRV), ou PanRV (Figura
7). A PanRV aplica os conceitos de genomas core, acessório e unique das
ciências pangenômicas na pesquisa em alvos vacinais. Do ponto de vista da
vacina, os genomas core e unique são os melhores candidatos para compor
uma vacina que seja adequada para todas as cepas estudadas, sem perder
de vista as particularidades de cada estirpe [24].

Figura 7. Workflow da pipeline PanRV – pacote de vacinologia reversa pangenômica. A

pipeline é dividida em quatro módulos: (1) PGM (módulo de estimativa de pangenoma);
(2) RVM (módulo de vacinologia reversa); (3) FAM (módulo de anotação funcional); e (4)
ARM (módulo de associação de resistência a antibióticos). Fonte: Naz et al., 2019 [24].
Desde o primeiro trabalho em RV para o desenvolvimento de uma vacina, o

conceito de vacinologia reversa também foi aplicado com sucesso a diversos
outros agentes de doenças infecciosas. Dentre eles, os vírus Ebola [25] e Zika
[26], as bactérias Streptococcus pneumoniae [27] e Mycoplasma
pneumoniae [28], além de outros patógenos de interesse veterinário e
zoonótico, como Corynebacterium pseudotuberculosis [29] e Brucella spp.
[30]. Quanto às ISTs, esforços contínuos estão sendo feitos por pesquisadores
para identificar novos candidatos a vacinas contra várias infecções
sexualmente transmissíveis, como as causadas por Herpes Simplex Virus-1
[31], Chlamydia trachomatis, clamídia [32], e Treponema pallidum, sífilis [33].
Enormes avanços em pesquisa na busca por profiláticos foram alcançados

com o auxílio da vacinologia reversa! Mas nem tudo são vacinas… o próximo
tópico em imunobioinformática traz as contribuições da genômica subtrativa
para a prospecção de alvos de drogas e a descoberta de novos alvos
farmacológicos.
Vamos lá!
Genômica Subtrativa
Para você, leitor, entender a necessidade de que se desenvolvam novas
drogas: no ano de 2020, a Organização Mundial da Saúde (OMS) declarou que
a resistência antimicrobiana (AMR) é uma das 10 principais ameaças à saúde
pública e ao desenvolvimento global enfrentadas pela humanidade no séc.

21. Apenas na União Europeia e EUA, a resistência a antibióticos é responsável

por aproximadamente 50.000 óbitos anuais [34].
Além disso, vários dos medicamentos utilizados pela medicina atual para o
tratamento de agentes infecciosos causam efeitos colaterais de pequeno a
grande porte, o que também compromete a qualidade de vida dos pacientes.
Todos esses fatores somados impõem a necessidade de se identificar drogas
novas e mais eficazes para o combate de doenças [35].
Os primeiros projetos de sucesso para o design racional de drogas foram

publicados há não muito tempo, apenas no início dos anos 1990. Contudo,
atualmente, o desenho de medicamentos baseados em sua estrutura
molecular é uma parte vital da maioria dos programas industriais de
descoberta de medicamentos e, também, um importante campo da
pesquisa acadêmica [36].
Nesse contexto, a abordagem chamada de ~genômica subtrativa~ está

amplamente envolvida na identificação de novos e específicos alvos de
drogas contra organismos patogênicos, como um passo para o
reposicionamento ou desenvolvimento de novos fármacos [37].
A genômica subtrativa faz alusão a abordagem matemática, onde

“subtração” significa literalmente “removido de baixo”, ou seja, retirar um
pedaço menor de um maior. Geralmente, dois ou mais genomas são
utilizados para determinar a diferença entre as informações analisadas e o
conjunto de dados genômicos são subtraídos uns dos outros a fim de revelar
os genes específicos de gênero, espécie e fenótipo único [38,39].
A identificação de alvos em genômica subtrativa é majoritariamente

baseada em genes essenciais e não-homólogos ao hospedeiro. Genes
essenciais são genes necessários para o crescimento, adaptabilidade e
sobrevivência de um organismo, sendo letal a deficiência de qualquer um
desses genes para o organismo. Nesse sentido, o Banco de Dados de Genes
Essenciais (DEG) [40] é o principal repositório que lista genes essenciais
validados experimentalmente em bactérias, fungos, plantas e animais.
O DEG é comumente empregado para a identificação de alvos por

abordagens genômicas subtrativas. Um gene não-homólogo de um
patógeno seria aquele que não está presente no hospedeiro, mas está
presente no patógeno, sendo este considerado o tipo ideal de alvo contra um
agente infeccioso [41].
Por vias de praxe, um alvo de drogas proteico deve atender a quatro critérios
principais:

1. deve ser um gene essencial para a sobrevivência ou patogênese do

organismo alvo;
2. “drogabilidade”, i.e., possuir características estruturais de proteína que a

tornem capaz de se ligar a pequenas moléculas inibidoras;
3. caracterização funcional e estrutural, com ensaios estabelecidos para

testar a inibição por pequenas moléculas;
4. distinção de alvos de drogas atuais para evitar resistência cruzada.
Além desses princípios, alguns trabalhos em genômica subtrativa levam em

consideração algumas outras estratégias para refinar ainda mais a sua
triagem por alvos de drogas. Inúmeros trabalhos avaliam, também, a
predição da localização subcelular de suas proteínas pré-selecionadas, pois,
por estarem mais expostas e voltadas para o meio extracelular, proteínas de
membrana são consideradas excelentes alvos de drogas [42,43].
Além disso, somados à genômica subtrativa, estudos computacionais de

acoplamento ou docking molecular podem levar à descoberta de novos
medicamentos para o tratamento de infecções [37]. Na triagem virtual,
pequenas moléculas ou compostos são encaixados computacionalmente na
região de interesse do alvo e classificados com base nas interações mais
favoráveis, preditas contra o sítio-ativo de ligação da proteína alvo (Figura 8).
Existem diversos bancos de dados de biomoléculas para docking, e.g., ZINC

Database [44], Available Chemicals Database (ACD) [45]. A principal
vantagem de realizar o docking molecular com compostos de bancos como
esses é que os ligantes de sucesso podem ser adquiridos e, com maior
praticidade, levados para ensaios in vitro e testados em ensaios bioquímicos.
Figura 8. Preparação para o docking molecular de ligantes a uma proteína. Na imagem, o

local específico para o sítio ativo da proteína albumina de soro humano (HSA) está sendo
definido por uma grid box, espaço restrito no qual será performado o docking, utilizando a
ferramenta AutoDockTools do software AutoDock Vina [46]. Fonte: Faiza, 2016 [47].
Nos últimos anos, muitos estudos em diversos patógenos empregaram uma

abordagem de genômica subtrativa e relataram identificação e
reconhecimento bem-sucedidos de novos alvos terapêuticos específicos

para suas respectivas espécies de interesse, tais como Pseudomonas

aeruginosa [48], Clostridium botulinum [49], Stenotrophomonas maltophilia
[50], Bartonella bacilliformis [51], e Haemophilus ducreyi [52] (Figura 9).
Figura 9. Representação da análise de docking molecular do alvo de droga frutose-

bisfosfato aldolase classe II, predito contra o patógeno Haemophilus ducreyi, com o
composto ligante ZINC77257029. Na imagem, as representações: A1, em fita plana
tridimensional; A2, tridimensional de superfície com 30% de transparência; A3,
tridimensional de superfície; e A4, bidimensional. Fonte: de Sarom, 2018 [52].
Agora já conhecemos melhor as contribuições que a imunobioinformática

pode trazer através da vacinologia reversa e da genômica subtrativa para o
combate de agentes infecciosos. Para encerrar, vamos mergulhar em um
último exemplo!
Você sabia que a imunobioinformática esteve diretamente envolvida durante

a corrida pelas vacinas contra o Covid-19? Não sabia? Pois prepare o álcool
em gel, ponha a sua máscara e vamos lá!
Na prática – Sars-CoV-2 e a corrida global por

vacinas
A infecção por COVID-19, ou Síndrome Respiratória Aguda Grave por
Coronavírus 2 (Sars‐CoV‐2), é uma doença infecciosa causada por um
coronavírus recém-descoberto, que já foi responsável por mais de 3,54
milhões de mortes em todo o mundo até maio de 2021 [53].
A OMS declarou uma pandemia em relação ao COVID-19 em 11 de março

de 2020, desde então, deixando claro a necessidade urgente de se
desenvolver vacinas seguras e eficazes contra essa ameaça global.

Num esforço global para o combate da pandemia, grupos de pesquisa e

instituições do mundo todo forneceram serviços, dados e redes de
contatos a fim de acelerar o desenvolvimento das vacinas. A plataforma
de compartilhamento de dados mais popular contra o COVID-19,
chamada GISAID [54], agora hospeda mais de 450.000 genomas virais de
SARS-CoV-2, permitindo que métodos in silico de bioinformática
pudessem ser aplicados de forma eficaz ao projeto de vacinas, com um
tempo de processamento mais rápido do que demandaria a vacinologia
clássica.
Figura 10. Workflow de um design de vacina contra o COVID-19 por

imunobioinformática. As sequências genômicas completas de COVID‐19 são o ponto
de partida no desenvolvimento de medicamentos, ferramentas de diagnóstico e uma
vacina. A vacinologia reversa (RV) e a vacinologia estrutural (structural vaccinology –
SV) podem ser empregadas no processo de desenvolvimento da vacina COVID ‐ 19.
RV depende de informações genômicas para determinar antígenos relevantes e para
projetar algoritmos de mapeamento de epítopos de células B e T para fins de
diagnóstico ou vacina. O SV envolve a análise da estrutura 3D e o teste da vacina de
domínios individuais. Fonte: Ishack & Lipner, 2021 [55].
Nesse caso, duas estratégias imunobioinformáticas principais,

vacinologia reversa e vacinologia estrutural (SV), foram aplicadas
envolvendo várias etapas (figura 10). Embora RV e SV tenham finalidades
diferentes, ambas foram igualmente importantes para desvendar
informações sobre os antígenos e a patogênese da doença [55]. Por
exemplo, a elucidação estrutural do antígeno de superfície viral trimérico
ubíquo (proteína spike) do Sars-CoV-2 (figura 11) foi extremamente
importante para os estudos de triagem e modelagem molecular
subsequentes e para o desenvolvimento de vacinas de subunidade
proteica [56,57].

Figura 11. Estrutura do S-Trímero de tipo selvagem de SARS-CoV-2, candidato a

vacina de subunidade, por crio-microscopia eletrônica (cryo-EM). Fonte: Imagem da
proteína 7E7D (PDB ID) gerada pela ferramenta de visualização 3D NGL Viewer
[58,59].
A produção de vacinas normalmente exige anos de pesquisa e de testes

antes de chegar à clínica, mas em 2020, graças a imunobioinformática,
os cientistas identificaram em tempo recorde uma vasta gama de
candidatos à vacina. Em meados do ano de 2021, 92 vacinas já estavam
em ensaios clínicos em humanos, 28 chegaram aos estágios finais de
teste. Mundialmente, oito vacinas foram aprovadas para uso e estão
sendo disputadas pela maioria dos países [60].
Mas vale lembrar que, enquanto não chega a sua vez de ser vacinado, a
melhor maneira de se prevenir e retardar a transmissão da doença ainda
é se manter bem-informado. Proteja a si mesmo e as outras pessoas
lavando as mãos ou esfregando-as frequentemente com álcool, sem
tocar no rosto, e evitando sempre aglomerações.
Conclusão
Apesar dos esforços e avanços da imunobioinformática, vários patógenos
persistem sem alternativas viáveis de tratamento. Seja por apresentarem
infecções resistentes a múltiplas drogas, por ainda não termos fármacos
eficazes contra esses patógenos ou por eles disporem de fatores de
virulência que ainda são desconhecidos. Sendo assim, as abordagens de
vacinologia reversa e de genômica comparativa, associadas a todas as
demais ciências ômicas, são fundamentais para a geração de novas
alternativas de prevenção e tratamento, tais como preparações vacinais e
alvos farmacológicos.
Portanto, a imunobioinformática se apresenta como grande aliada no

combate de doenças vigentes e emergentes, podendo levar à descoberta de

novos profiláticos para o tratamento de infecções atuais e a auxiliar na

contenção de grandes surtos futuros e epidemias.
Referências
[1] P.J. Delves, S.J. Martin, D.R. Burton, I.M. Roitt, ROITT, FUNDAMENTOS DE
IMUNOLOGIA, 2014.
[2] A.K. Abbas, A.H. Lichtman, S. Pillai, Imunologia Celular e Molecular. 8a

edição, 2015.
[3] British Society for Immunology, Helper and Cytotoxic T Cells | British Society
for Immunology, (2020). https://www.immunology.org/public-
information/bitesized-immunology/cells/helper-and-cytotoxic-t-cells
(accessed May 31, 2021).
[4] A.C. arl. Goldberg, L.V. icent. Rizzo, MHC structure and function – antigen
presentation. Part 1, Einstein (Sao Paulo). 13 (2015) 153–156.
https://doi.org/10.1590/S1679-45082015RB3122.
[5] A.R. Santos, V.B. Pereira, E. Barbosa, J. Baumbach, J. Pauling, R. Röttger, M.Z.
Turk, A. Silva, A. Miyoshi, V. Azevedo, Mature Epitope Density – A strategy for
target selection based on immunoinformatics and exported prokaryotic
proteins, BMC Genomics. 14 (2013) S4. https://doi.org/10.1186/1471-2164-14-S6-
S4.
[6] J.L. Mellerson, E. Street, C. Knighton, K. Calhoun, R. Seither, J.M. Underwood,

Centers for Disease Control and Prevention’s School Vaccination Assessment:
Collaboration With US State, Local, and Territorial Immunization Programs,
2012-2018, Am. J. Public Health. 110 (2020) 1092–1097.
https://doi.org/10.2105/AJPH.2020.305643.
[7] D.L. Doolan, S.H. Apte, C. Proietti, Genome-based vaccine design: The
promise for malaria and other infectious diseases, Int. J. Parasitol. 44 (2014)
901–913. https://doi.org/10.1016/j.ijpara.2014.07.010.
[8] S. Bambini, R. Rappuoli, The use of genomics in microbial vaccine

development, Drug Discov. Today. 14 (2009) 252–260.
https://doi.org/10.1016/j.drudis.2008.12.007.
[9] Y. He, Z. Xiang, H.L.T. Mobley, Vaxign: The first web-based vaccine design
program for reverse vaccinology and applications for vaccine development, J.
Biomed. Biotechnol. 2010 (2010) 297505. https://doi.org/10.1155/2010/297505.
[10] E. Del Tordello, R. Rappuoli, I. Delany, Reverse Vaccinology: Exploiting

Genomes for Vaccine Design, in: Hum. Vaccines Emerg. Technol. Des. Dev.,

Elsevier Inc., 2017: pp. 65–86. https://doi.org/10.1016/B978-0-12-802302-

0.00002-9.
[11] A. Santos, A. Ali, E. Barbosa, A. Silva, A. Miyoshi, D. Barh, V. Azevedo, The

reverse vaccinology – a contextual overview, IIOAB J. 2 (2011) 8–15.
[12] R. Rappuoli, Reverse vaccinology, a genome-based approach to vaccine

development, in: Vaccine, Vaccine, 2001: pp. 2688–2691.
https://doi.org/10.1016/S0264-410X(00)00554-5.
[13] E. Ong, M.F. Cooke, A. Huffman, Z. Xiang, M.U. Wong, H. Wang, M.

Seetharaman, N. Valdez, Y. He, Vaxign2: the second generation of the first
Web-based vaccine design program using reverse vaccinology and machine
learning, Nucleic Acids Res. (2021). https://doi.org/10.1093/nar/gkab279.
[14] M. Andreatta, M. Nielsen, Gapped sequence alignment using artificial

neural networks: Application to the MHC class i system, Bioinformatics. 32
(2016) 511–517. https://doi.org/10.1093/bioinformatics/btv639.
[15] A.P. Bhavsar, J.A. Guttman, B.B. Finlay, Manipulation of host-cell pathways
by bacterial pathogens, Nature. 449 (2007) 827–834.
https://doi.org/10.1038/nature06247.
[16] M. Sibbald, J.M. van Dijl, Secretome mapping in Gram-positive pathogens,

in: 2008: pp. 185-215 BT-Bacterial protein secretion systems.
[17] R. Simeone, D. Bottai, R. Brosch, ESX/type VII secretion systems and their
role in host-pathogen interaction, Curr. Opin. Microbiol. 12 (2009) 4–10.
https://doi.org/10.1016/j.mib.2008.11.003.
[18] J. Stavrinides, H.C. McCann, D.S. Guttman, Host-pathogen interplay and

the evolution of bacterial effectors, Cell. Microbiol. 10 (2008) 285–292.
https://doi.org/10.1111/j.1462-5822.2007.01078.x.
[19] J. Couto, G. Seixas, C. Stutzer, N.A. Olivier, C. Maritz-Olivier, S. Antunes, A.

Domingos, Probing the rhipicephalus bursa sialomes in potential anti-tick
vaccine candidates: A reverse vaccinology approach, Biomedicines. 9 (2021)
363. https://doi.org/10.3390/biomedicines9040363.
[20] M. Pizza, V. Scarlato, V. Masignani, M.M. Giuliani, B. Aricò, M. Comanducci,

G.T. Jennings, L. Baldi, E. Bartolini, B. Capecchi, C.L. Galeotti, E. Luzzi, R. Manetti, E.
Marchetti, M. Mora, S. Nuti, G. Ratti, L. Santini, S. Savino, M. Scarselli, E. Storni, P.
Zuo, M. Broeker, E. Hundt, B. Knapp, E. Blair, T. Mason, H. Tettelin, D.W. Hood, A.C.
Jeffries, N.J. Saunders, D.M. Granoff, J.C. Venter, E.R. Moxon, G. Grandi, R.
Rappuoli, Identification of vaccine candidates against serogroup B
meningococcus by whole-genome sequencing, Science (80-. ). 287 (2000)
1816–1820. https://doi.org/10.1126/science.287.5459.1816.

[21] S.K. Dhanda, P. Vir, D. Singla, S. Gupta, S. Kumar, G.P.S. Raghava, A Web-
Based platform for designing vaccines against existing and emerging strains
of mycobacterium tuberculosis, PLoS One. 11 (2016).
https://doi.org/10.1371/journal.pone.0153771.
[22] A.S. De Groot, Immunomics: Discovering new targets for vaccines and
therapeutics, Drug Discov. Today. 11 (2006) 203–209.
https://doi.org/10.1016/S1359-6446(05)03720-7.
[23] F.A. Bidmos, S. Siris, C.A. Gladstone, P.R. Langford, Bacterial vaccine antigen
discovery in the reverse vaccinology 2.0 Era: Progress and challenges, Front.
Immunol. 9 (2018) 2315. https://doi.org/10.3389/fimmu.2018.02315.
[24] K. Naz, A. Naz, S.T. Ashraf, M. Rizwan, J. Ahmad, J. Baumbach, A. Ali, PanRV:
Pangenome-reverse vaccinology approach for identifications of potential
vaccine candidates in microbial pangenome, BMC Bioinformatics. 20 (2019)
123. https://doi.org/10.1186/s12859-019-2713-9.
[25] M.A. Ullah, B. Sarkar, S.S. Islam, Exploiting the Reverse Vaccinology
Approach to Design Novel Subunit Vaccine against Ebola Virus,
Immunobiology. (2020) 2020.01.02.20016311.
https://doi.org/10.1101/2020.01.02.20016311.
[26] E.A. Salvador, G.A. Pires de Souza, L.C. Cotta Malaquias, T. Wang, L.F. Leomil
Coelho, Identification of relevant regions on structural and nonstructural
proteins of Zika virus for vaccine and diagnostic test development: an in silico
approach, New Microbes New Infect. 29 (2019) 100506.
https://doi.org/10.1016/j.nmni.2019.01.002.
[27] H. Dorosti, M. Eslami, M. Negahdaripour, M.B. Ghoshoon, A. Gholami, R.

Heidari, A. Dehshahri, N. Erfani, N. Nezafat, Y. Ghasemi, Vaccinomics approach
for developing multi-epitope peptide pneumococcal vaccine, J. Biomol. Struct.
Dyn. 37 (2019) 3524–3535. https://doi.org/10.1080/07391102.2018.1519460.
[28] T.C.V. Rodrigues, A.K. Jaiswal, A. De Sarom, L.D.C. Oliveira, C.J.F. Oliveira, P.
Ghosh, S. Tiwari, F.M. Miranda, L.D.J. Benevides, V.A.D.C. Azevedo, S.D.C. Soares,
Reverse vaccinology and subtractive genomics reveal new therapeutic
targets against Mycoplasma pneumoniae: A causative agent of pneumonia, R.
Soc. Open Sci. 6 (2019). https://doi.org/10.1098/rsos.190907.
[29] C.L. Araújo, J. Alves, W. Nogueira, L.C. Pereira, A.C. Gomide, R. Ramos, V.
Azevedo, A. Silva, A. Folador, Prediction of new vaccine targets in the core
genome of Corynebacterium pseudotuberculosis through omics approaches
and reverse vaccinology, Gene. 702 (2019) 36–45.
https://doi.org/10.1016/j.gene.2019.03.049.
[30] Y. Hisham, Y. Ashhab, Identification of cross-protective potential antigens

against pathogenic brucella spp. through combining pan-genome analysis

with reverse vaccinology, J. Immunol. Res. 2018 (2018).

https://doi.org/10.1155/2018/1474517.
[31] B. Sarkar, M. Ullah, Designing Novel Subunit Vaccines against Herpes

Simplex Virus-1 using Reverse Vaccinology Approach, BioRxiv. (2020)
2020.01.10.901678. https://doi.org/10.1101/2020.01.10.901678.
[32] S. Shiragannavar, S. Madagi, J. Hosakeri, V. Barot, In silico vaccine design

against Chlamydia trachomatis infection, Netw. Model. Anal. Heal. Informatics
Bioinforma. 9 (2020) 39. https://doi.org/10.1007/s13721-020-00243-w.
[33] A.K. Jaiswal, S. Tiwari, S.B. Jamal, D. Barh, V. Azevedo, S.C. Soares, An in
silico identification of common putative vaccine candidates against
treponema pallidum: A reverse vaccinology and subtractive genomics based
approach, Int. J. Mol. Sci. 18 (2017). https://doi.org/10.3390/ijms18020402.
[34] W.H. Organization, World health statistics 2015, World Health Organization,
Geneva PP – Geneva, n.d.
[35] P.J. Madabhavi, V.G. Shanmuga Priya, R.N. R, P.S. Honagudi, S. Jiddagi,
SUBTRACTIVE GENOMICS – A Promising way To Combat Pathogens (A Review),
Int. Res. J. Eng. Technol. (2015) 2395–56.
[36] V. Mountain, Astex, Structural Genomix, and Syrrx, Chem. Biol. 10 (2003)
95–98. https://doi.org/10.1016/S1074-5521(03)00030-9.
[37] T. Hossain, M. Kamruzzaman, T.Z. Choudhury, H.N. Mahmood, A.H.M.N. Nabi,

M.I. Hosen, Application of the Subtractive Genomics and Molecular Docking
Analysis for the Identification of Novel Putative Drug Targets against
Salmonella enterica subsp. enterica serovar Poona, Biomed Res. Int. 2017
(2017). https://doi.org/10.1155/2017/3783714.
[38] D. Barh, S. Tiwari, N. Jain, A. Ali, A.R. Santos, A.N. Misra, V. Azevedo, A. Kumar,
In silico subtractive genomics for target identification in human bacterial
pathogens, Drug Dev. Res. 72 (2011) 162–177. https://doi.org/10.1002/ddr.20413.
[39] M.I. Hosen, A.M. Tanmoy, D. Al Mahbuba, U. Salma, M. Nazim, M.T. Islam, S.
Akhteruzzaman, Application of a subtractive genomics approach for in silico
identification and characterization of novel drug targets in Mycobacterium
tuberculosis F11, Interdiscip. Sci. Comput. Life Sci. 6 (2014) 48–56.
https://doi.org/10.1007/s12539-014-0188-y.
[40] H. Luo, Y. Lin, F. Gao, C.T. Zhang, R. Zhang, DEG 10, an update of the
database of essential genes that includes both protein-coding genes and
noncoding genomic elements, Nucleic Acids Res. 42 (2014).
https://doi.org/10.1093/nar/gkt1131.

[41] K.R. Sakharkar, M.K. Sakharkar, V.T.K. Chow, Biocomputational strategies for
microbial drug target identification., Methods Mol. Med. 142 (2008) 1–9.
https://doi.org/10.1007/978-1-59745-246-5_1.
[42] A.G. Holman, P.J. Davis, J.M. Foster, C.K. Carlow, S. Kumar, Computational
prediction of essential genes in an unculturable endosymbiotic bacterium,
Wolbachia of Brugia malayi, BMC Microbiol. 9 (2009).
https://doi.org/10.1186/1471-2180-9-243.
[43] D. Barh, A.N. Misra, In silico identification of membrane associated

candidate drug targets in Neisseria gonorrhoeae, Int. J. Integr. Biol. 6 (2009)
65–67.
[44] T. Sterling, J.J. Irwin, ZINC 15 – Ligand Discovery for Everyone, J. Chem. Inf.
Model. 55 (2015) 2324–2337. https://doi.org/10.1021/acs.jcim.5b00559.
[45] M.W. Azam, A. Kumar, A.U. Khan, ACD: Antimicrobial chemotherapeutics

database, PLoS One. 15 (2020). https://doi.org/10.1371/journal.pone.0235193.
[46] O. Trott, A.J. Olson, Software news and update AutoDock Vina: Improving
the speed and accuracy of docking with a new scoring function, efficient
optimization, and multithreading, J. Comput. Chem. 31 (2010) 455–461.
https://doi.org/10.1002/jcc.21334.
[47] Muniba Faiza, How to perform docking in a specific binding site using
AutoDock Vina? | Bioinformatics Review, (2016).
https://bioinformaticsreview.com/20161214/how-to-perform-docking-in-a-
specific-binding-site-using-autodock-vina/ (accessed June 3, 2021).
[48] R. Uddin, F. Jamil, Prioritization of potential drug targets against P.

aeruginosa by core proteomic analysis using computational subtractive
genomics and Protein-Protein interaction network, Comput. Biol. Chem. 74
(2018) 115–122. https://doi.org/10.1016/j.compbiolchem.2018.02.017.
[49] R. Sudha, A. Katiyar, P. Katiyar, H. Singh, P. Prasad, Identification of

potential drug targets and vaccine candidates in Clostridium botulinum using
subtractive genomics approach, Bioinformation. 15 (2019) 18–25.
https://doi.org/10.6026/97320630015018.
[50] R.P. Chakrabarty, A.S.M.R.U. Alam, D.K. Shill, A. Rahman, Identification and
qualitative characterization of new therapeutic targets in Stenotrophomonas
maltophilia through in silico proteome exploration, Microb. Pathog. 149 (2020)
104293. https://doi.org/10.1016/j.micpath.2020.104293.
[51] M.T. Khan, A. Mahmud, A. Iqbal, S.F. Hoque, M. Hasan, Subtractive genomics
approach towards the identification of novel therapeutic targets against
human Bartonella bacilliformis, Informatics Med. Unlocked. 20 (2020) 100385.
https://doi.org/10.1016/j.imu.2020.100385.

[52] A. De Sarom, A.K. Jaiswal, S. Tiwari, L. de C. Oliveira, D. Barh, V. Azevedo, C.J.

Oliveira, S. de C. Soares, Putative vaccine candidates and drug targets
identified by reverse vaccinology and subtractive genomics approaches to
control Haemophilus ducreyi, the causative agent of chancroid, J. R. Soc.
Interface. 15 (2018). https://doi.org/10.1098/rsif.2018.0032.
[53] E.O.-O. and J.H. Max Roser, Hannah Ritchie, Coronavirus Pandemic
(COVID-19) – the data – Statistics and Research – Our World in Data,
OurWorldInData.Org. (2020). https://ourworldindata.org/coronavirus-data
(accessed May 31, 2021).
[54] S. Elbe, G. Buckland-Merrett, Data, disease and diplomacy: GISAID’s

innovative contribution to global health, Glob. Challenges. 1 (2017) 33–46.
https://doi.org/10.1002/gch2.1018.
[55] S. Ishack, S.R. Lipner, Bioinformatics and immunoinformatics to support

COVID-19 vaccine development, J. Med. Virol. 1 (2021).
https://doi.org/10.1002/jmv.27017.
[56] S. Ismail, S. Ahmad, S.S. Azam, Immunoinformatics characterization of

SARS-CoV-2 spike glycoprotein for prioritization of epitope based multivalent
peptide vaccine, J. Mol. Liq. 314 (2020) 113612.
https://doi.org/10.1016/j.molliq.2020.113612.
[57] J. Ma, D. Su, Y. Sun, X. Huang, Y. Liang, L. Fang, Y. Ma, W. Li, P. Liang, S. Zheng,
Cryo-electron Microscopy Structure of S-Trimer, a Subunit Vaccine Candidate
for COVID-19, J. Virol. 95 (2021). https://doi.org/10.1128/jvi.00194-21.
[58] RCSB PDB – 7E7D: Cryo-EM structure of the SARS-CoV-2 wild-type S-

Trimer from a subunit vaccine candidate, (n.d.).
https://www.rcsb.org/structure/7e7d (accessed June 3, 2021).
[59] A.S. Rose, A.R. Bradley, Y. Valasatava, J.M. Duarte, A. Prlic, P.W. Rose, NGL
viewer: Web-based molecular graphics for large complexes, Bioinformatics. 34
(2018) 3755–3758. https://doi.org/10.1093/bioinformatics/bty419.
[60] C. Zimmer, Covid-19 Vaccine Tracker: Latest Updates – The New York
Times, New York Times. (2021).
https://www.nytimes.com/interactive/2020/science/coronavirus-vaccine-
tracker.html (accessed May 31, 2021).

07
BI OI NF ORM ÁT I CA ES T RUT U RAL D ES T A Q UE S
Alinhamentos estruturais
By Laboratório de Bioinformática e Sistemas
12 de março de 2021
Alinhamentos estruturais: métodos de sobreposição de proteínas e outras

moléculas
Vitor Pimentel dos Santos , Pedro Martins , Diego Mariano
Revisão: Lucianna Helene Santos
DOI: 10.51780/978-6-599-275326-07
A
linhamento estrutural consiste na tentativa de encontrar
semelhanças entre duas estruturas tridimensionais de
moléculas, como por exemplo, peptídeos, ligantes e proteínas [1].
A estrutura tridimensional de proteínas está estritamente ligada
à sua atividade biológica em uma célula [2]. Portanto, conhecer a estrutura
das proteínas e poder encontrar equivalências nessas estruturas é um fator
crucial no campo da biologia estrutural [2]. Além disso, uma vez que estudos
sugerem que a evolução tende a conservar a estrutura de macromoléculas,
similaridades estruturais entre duas proteínas podem ser usadas como
indícios de relações evolutivas ou funções comuns entre as estruturas
sobrepostas [1]. Essas relações, por sua vez, são fundamentais na predição da
interação entre proteínas [4]. Nesse contexto, a determinação entre
similaridades entre estruturas se mostra de grande importância para uma
gama de estudos em bioinformática estrutural.
No alinhamento estrutural, macromoléculas são sobrepostas visando

encontrar regiões de similaridade. A Figura 1 ilustra o alinhamento estrutural
entre duas enzimas beta-glicosidases classificadas como membros da
família 1 das glicosídeo-hidrolases (GH1) na base de dados CAZy
(Carbohydrate-Active enZYmes; disponível em http://www.cazy.org/). Por
serem proteínas de uma mesma família (e do mesmo clã GH-A), é esperado
que beta-glicosidases GH1 possuam uma estrutura tridimensional parecida.
Isso pode ser demonstrado sobrepondo as estruturas através de uma técnica
de alinhamento estrutural, como na Figura 1.

Figura 1. Exemplo de alinhamento estrutural entre duas

proteínas beta-glicosidase da família GH1. À esquerda vê-se a
estrutura (cartoon verde) da beta-glicosidase do fungo Humicola
insolens (PDB ID: 4MDP). À direita vê-se a estrutura (cartoon
azul) da beta-glicosidase do cupim Neotermes koshunensis (PDB
ID: 3VIK). Abaixo, vemos as duas estruturas sobrepostas por
meio de alinhamento estrutural. Figura gerada usando PyMOL
(https://pymol.org/2/). Fonte: próprio autor.
De fato, a família GH1 (e outras famílias pertencentes ao clã GH-A) é

composta por enzimas que adotam uma estrutura de enovelamento
denominada Barril TIM (β/α)8, em que oito fitas beta se intercalam com oito
hélices-alfa dando a proteína a forma de um barril [12]. Quando comparamos
as sequências (estrutura primária) dessas enzimas podemos perceber que
elas apresentam menos de 40% de identidade, isto é, menos de 40% dos
aminoácidos que compõem essas estruturas são similares (Figura 2). Isso
demonstra uma das vantagens do alinhamento estrutural: encontrar
macromoléculas com sequências pouco similares, mas com uma forma
parecida.

Figura 2. Alinhamento entre sequências da beta-glicosidase do fungo Humicola

insolens (PDB ID: 4MDP) e da beta-glicosidase do cupim Neotermes koshunensis
(PDB ID: 3VIK). Identidade de sequência de 39%. Aminoácidos forma coloridos de
acordo com o tipo. Gerado usando Clustal Omega
(https://www.ebi.ac.uk/Tools/msa/clustalo/). Fonte: próprio autor.
Fundamentos do alinhamento estrutural

Fundamento 1 – considere o espaço 3D: partindo do princípio de que
desejemos alinhar duas macromoléculas para determinar se possuem
estruturas similares, devemos primeiramente considerar que estamos lidando
com um ambiente tridimensional, isto é, composto por três dimensões (em
geral, denominadas X, Y e Z). Considere que proteínas são compostas por
aminoácidos, que por sua vez são compostos por átomos. Cada átomo é
representado por uma coordenada tridimensional. Veja um exemplo de uma
linha de um arquivo PDB que representa um átomo de nitrogênio da cadeia
principal do aminoácido prolina de um peptídeo sintético semelhante ao
colágeno (PDB ID: 1MDS):
ATOM 1 N PRO A 1 8.316 21.206 21.530 1.00 17.44 N
Os três números destacados representam as três posições X, Y e Z daquele

átomo no espaço tridimensional. Logo, se desejamos sobrepor uma estrutura
sobre a outra, precisamos alterar essas coordenadas.
Fundamento 2 – apenas uma estrutura é alterada: em um alinhamento par-

a-par, apenas as coordenadas de uma estrutura devem ser alteradas. A
outra estrutura é utilizada como referência para realização do alinhamento

(Figura 3). Caso tenha mais de duas estruturas para serem alinhadas, uma
delas deverá ser utilizada como estrutura-referência, enquanto todas as
outras serão alinhadas em relação a ela.
Figura 3. Alinhamento entre duas formas genéricas denominadas

como A e B. Apenas B sofreu alterações, ou seja, em um
alinhamento par-a-par, B é alinhado em comparação a A. Fonte:
próprio autor.
Fundamento 3 – rotação e translação: no alinhamento estrutural, uma

estrutura pode sofrer duas possíveis operações. São elas rotação e
translação. No movimento de translação, um elemento é movido de um lugar
para o outro sem alterar sua posição rotacional em relação a um referencial.
No caso da rotação, esse movimento relaciona-se a girar determinado
elemento, o que afeta outros elementos conectados. Se tratando de um
ambiente tridimensional, esses conceitos podem parecer um pouco
complexos (ainda mais quando os correlacionamos com interações
moleculares).
Para entender o movimento de rotação, imagine um átomo representado

como se fosse uma bola de futebol da marca BIOINFO (preste bastante
atenção na marca). Imagine que a bola está parada, logo podemos
rotacioná-la de seis formas possíveis, como na Figura 4:
Figura 4. Possíveis rotações que uma bola poderia sofrer. (1) rotação em sentido horário,
(2) sentido anti-horário, (3) direita, (4) esquerda, (5) acima e (6) abaixo. Observe que
todos os movimentos ocorrem com base em uma referência (no caso, o centro da bola).
Fonte: próprio autor.

Observe que a bola se encontra é uma mesma posição, ou seja, apesar de

estarmos rotacionando a bola, as coordenadas dela não estão sendo
alteradas.
Agora, vamos supor que Joãozinho, um menino muito levado da rua, colou
duas bolas de futebol usando supercola. Nesse caso, ao aplicar um
movimento de rotação em qualquer uma das bolas, a outra também será
afetada (Figura 5). Por exemplo, se rotacionarmos a bola 1, as coordenadas
dela não serão alteradas (afinal ela se encontra no mesmo lugar). Entretanto,
as coordenadas da bola 2 serão afetadas.
Figura 5. Ao rotacionar um elemento ligado a outro, a posição

do segundo elemento que participa da interação será afetada.
(A) Ilustração do movimento de rotação quando dois
elementos estão unidos. Considere a bola 1 como elemento-
referência. (B) Ao aplicar uma rotação a um elemento, ele
continuará nas mesmas coordenadas, enquanto as
coordenadas do outro serão afetadas. Por exemplo, considere
que a bola 1 está presa ao chão (vamos considerar que a
distância para o chão seja o eixo Y). Ao rotacioná-la, ela
continuará presa ao chão (e.g., distância do eixo Y igual a 0
cm), mas a bola 2 não está mais (e.g., distância do eixo Y
igual a 10 cm). Fonte: próprio autor.

Para entender a translação, observe o exemplo a seguir com um par de

calçados (Figura 6). Na Figura 6A, dois calçados estão posicionados um ao
lado do outro. A seguir, eles foram separados (Figura 6B), isto é, o chinelo à
direita sofre um movimento de translação que amplia a distância para o
chinelo à esquerda. Entretanto, note que a orientação não foi alterada
(perceba como o chinelo à direita está levemente inclinado e mantém sua
inclinação mesmo após a translação). Assim, podemos concluir que o
movimento de translação desloca um elemento de um ponto a outro, mas
sem alterar sua rotação (ou seja, apenas um dos eixos será alterado).
Figura 6. Ilustrando o movimento de translação usando calçados. (A) Chinelos estão

próximos. (B) Chinelos são separados (i.e., o chinelo à direita realiza um movimento de
translação). Note que a orientação dos chinelos não foi alterada. Apenas foi aplicada uma
distância entre eles. Fonte: próprio autor.
Os movimentos de rotação e translação aplicados a átomos podem ser

interpretados de forma similar. Átomos realizam interações químicas (no
caso dos aminoácidos, eles estão interligados por ligações covalentes). Logo,
ao aplicar um movimento de rotação em um dos átomos, as coordenadas de
outros átomos interligados serão afetadas. Para ilustrar isso, observe a figura
a seguir. Nela, dois aminoácidos triptofano em orientações e posições
diferentes são representados por sticks verdes e azuis. Deseja-se sobrepor o
triptofano azul sobre o triptofano verde. Observe como os movimentos de
rotação e translação poderiam ser aplicados (Figura 7).
Figura 7. Alinhamento estrutural entre dois aminoácidos triptofano representados por

sticks nas cores verde e azul ciano. (A) Aminoácidos em orientações e posições distintas.
(B) Rotação dos eixos X e Y do triptofano azul visando se aproximar da posição final do
triptofano verde. (C) Rotação considerando os eixos X e Z (observe que é difícil visualizar
a representação do eixo Z, por essa se tratar de uma figura bidimensional). (D-E)
Translação do triptofano azul para sobrepor o verde (em geral, a translação é realizada
primeiro, mas para melhor ilustrar o processo, realizamos após a rotação). Figura gerada
com PyMOL. Fonte: próprio autor.

Note que a sobreposição não é perfeita. Mesmo se tratando de um mesmo

aminoácido, é natural que se encontre diferenças nas distâncias dos átomos
devido às limitações dos métodos de determinação de estruturas, a própria
natureza das ligações químicas e até mesmo a imprecisões dos algoritmos
de alinhamento estrutural. Observe ainda que o processo de rotação e
translação é bastante complexo quando se considera cada um dos átomos.
Por exemplo, ao visar um melhor alinhamento entre os átomos de nitrogênio
(em azul na figura), podemos ter um bom alinhamento considerando todo o
aminoácido. Entretanto, os átomos remanescentes ainda não estarão bem
alinhados. Digamos que a seguir, transladamos e rotacionamos o átomo de
oxigênio (em vermelho) para aperfeiçoar o posicionamento. Ao fazer isso,
todas as coordenadas dos outros átomos serão afetadas, inclusive dos
átomos de nitrogênio (que já haviam sido posicionadas corretamente).
Assim, mais uma vez eles precisarão ser reorientados, o que irá mais uma vez
afetar o alinhamento dos átomos de oxigênios (além de todos os outros).
Perceba que não há uma solução perfeita para um alinhamento de
estruturas. Logo, as ferramentas disponíveis usam diversos algoritmos e
heurísticas para tentar obter uma boa sobreposição, balanceando precisão e
desempenho.
Algoritmos de alinhamento estrutural

O problema do alinhamento entre estruturas tridimensionais possui um custo
computacional maior do que o alinhamento de sequências. Frente a isso,
algoritmos de modelagem e alinhamento estrutural eficientes são
imprescindíveis dentro dessa área [3-4].
Por exemplo, dadas duas proteínas A e B de tamanhos m e n, o alinhamento

estrutural visa encontrar subcadeias (vamos chamá-las aqui de P e Q), que
tenham o mesmo tamanho, sejam similares e a correspondência seja a
máxima possível [1]. A correspondência é definida como a associação de
pares de átomos das duas proteínas que aparecem nas mesmas posições
em suas respectivas subcadeias. O resultado de um alinhamento são
subestruturas derivadas que tenham o maior grau de similaridade possível.
Em geral, esse grau de similaridade é medido pela distância euclidiana entre
os átomos correspondentes em cada estrutura [1].
Proteínas podem ser rotacionadas ou transladadas sem ter sua estrutura

afetada (no caso, considere as distâncias internas entre átomos). Então,
pode-se fixar a proteína A e rotacionar a proteína B de forma a encontrar as
maiores subcadeias P e Q que tenham alta similaridade e correspondência.
Mais uma vez, devemos lembrar que, em um processo de alinhamento
estrutural, é fundamental considerar a orientação e posição relativa em um
espaço tridimensional das duas proteínas [1].
Sistemas de pontuação

Existe uma grande quantidade de algoritmos para alinhamento estrutural

disponíveis. Assim, criar algoritmos novos e mais eficientes vem se tornando
cada vez mais desafiador [4]. Em geral, tais algoritmos acompanham
diversas métricas para medir o alinhamento. Uma métrica bastante utilizada
é o root-mean-square deviation (RMSD), que é calculado após a
superposição das estruturas [3], conforme visto na Equação 1:
(1)
em que δ é a distância entre átomos correspondentes de cada estrutura, e N

é o número de pares de átomos correspondentes [13]. O RMSD é aplicável a
qualquer subconjunto de uma proteína, pode ser calculado entre os
carbonos-alfa (Cα) das estruturas ou apenas em resíduos de uma seção
específica, ou pode ser calculado entre todos os átomos pesados [13].
Na prática quanto menor o valor de RMSD, mais similares são as estruturas.

No exemplo a seguir, mostramos dois alinhamentos hipotéticos para duas
estruturas exemplo (Figura 8). Observe que quão melhor uma estrutura
sobrepõe a outra, menor o valor de RMSD.
Figura 8. Exemplo hipotético entre dois alinhamentos diferentes entre dois aminoácidos
triptofano (verde e azul). Quanto mais bem sobrepostas, menor o RMSD. Gerado usando
PyMOL. Fonte: próprio autor.
Algumas ferramentas podem apresentar diferentes métricas que vão além

do RMSD, como por exemplo, o LS-Align que utiliza a métrica LS-Score [5] e a
ferramenta TM-align, que utiliza o TM-Score [3]. Tanto o LS-Score quanto o
TM-Score são o valor máximo de uma pontuação calculada com base no
tamanho da estrutura sobre a qual será feita o alinhamento (no caso do TM-
align, a primeira estrutura passada como parâmetro) e na soma de
parâmetros obtidos a partir da distância entre os resíduos alinhados e de um
fator de normalização. Por fim, ambas as métricas retornarão um valor entre
0 e 1 [3-5]. TM-score tem o valor no intervalo (0,1], onde 1 indica uma
combinação perfeita entre duas estruturas. Nas próximas seções veremos
detalhes de ferramentas que realizam alinhamento estrutural.

O alinhamento perfeito (RMSD = 0)

O melhor alinhamento estrutural possível teria um RMSD igual a zero.
Podemos avaliar isso, alinhando uma estrutura com uma cópia idêntica a
ela. No exemplo a seguir, usaremos a ferramenta PyMOL para realizar um
alinhamento da lisozima 2LZM (em verde) contra uma cópia idêntica dela
(em magenta). Note como as proteínas ficam perfeitamente sobrepostas
(Figura 9).
Figura 9. Alinhamento da lisozima de PDB ID: 2LZM (exibida

como um cartoon verde) com uma cópia idêntica dela (exibida
como um cartoon na cor magenta). Imagem produzida usando
Agora, observe o resultado do alinhamento exibido pelo PyMOL:
Executive: RMSD = 0.000 (162 to 162 atoms)
Note que todos os 162 átomos foram usados na comparação (foi usado
apenas um átomo para cada resíduo). Como as coordenadas desses
átomos são idênticas, o resultado final de RMSD será igual a zero,
indicando um alinhamento perfeito.
Ferramentas para alinhamento estrutural

Na próxima seção, serão apresentadas algumas das principais ferramentas
para realização de alinhamento estrutural.

Alinhamento de estruturas 3D com PyMOL

PyMOL fornece diversos métodos para alinhamento estrutural de moléculas
tanto por meio de sua interface simplificada quanto por meio de seu terminal
de linhas comando. Para compreender como ele funciona na prática, vamos
apresentar a seguir, uma série de estudos de caso utilizando-o para realizar
alinhamentos de estruturas.
Estudo de caso 1: alinhamento entre duas beta-glicosidases

No exemplo a seguir, demonstraremos como utilizar a interface do PyMOL
para realizar o alinhamento de duas proteínas. Para este estudo de caso,
realizaremos o alinhamento da beta-glicosidase do fungo Humicola insolens
(PDB ID: 4MDP) e da beta-glicosidase do cupim Neotermes koshunensis (PDB
ID: 3VIK).
Inicialmente, acesse o terminal de comando da interface gráfica do PyMOL

(Figura 10). A priori, utilizaremos o terminal apenas para fazer o download dos
arquivos PDB que serão utilizados. Caso já os tenha em seu computador, você
pode utilizar o menu File > Open para abrir manualmente os arquivos PDB.
Figura 10. Terminal de comandos do PyMOL. Comando fetch é usado para baixar
estruturas. Fonte: próprio autor.
Para fazer o download dos arquivos utilize o comando fetch seguido do

código PDB que se deseja carregar. Para o estudo de caso, execute os
comandos:
fetch 4mdp
fetch 3vik
Isso irá carregar a visualização tridimensional das duas estruturas das

proteínas beta-glicosidase do fungo Humicola insolens (PDB ID: 4MDP),
representada na cor verde, e de Neotermes koshunensis (PDB ID: 3VIK),
representada na cor azul (Figura 11).

Figura 11. Visualizações das proteínas beta-glicosidase do fungo Humicola insolens (PDB
ID: 4MDP) – cartoon verde – e da beta-glicosidase do cupim Neotermes koshunensis (PDB
ID: 3VIK) – cartoon azul – na interface do PyMOL. Fonte: próprio autor.
Para alinhar as estruturas, podemos utilizar o painel à direita para selecionar

uma ação de alinhamento (Figura 12). Vamos escolher uma das estruturas
(no caso, selecionamos 3VIK) e clicar sobre o botão com a letra A (action) ao
lado do nome da estrutura. Isso irá carregar um menu com diversas ações
que podem ser aplicadas a estrutura desejada. Vamos até a opção align
(alinhamento), depois em “to molecule (*/CA)” e por fim em 4mdp (pois
iremos sobrepor 3vik a 4mdp).
Figura 12. Alinhamento estrutural usando a interface do PyMOL. Fonte: próprio autor.
Por padrão, o PyMOL realiza um alinhamento de sequências para determinar

regiões similares e depois um refinamento é realizado usando as posições

dos carbonos-alfa de cada resíduo de aminoácido. Como resultado, pode-se

observar as estruturas sobrepostas (Figura 13).
Figura 13. Estruturas sobrepostas de 3vik e 4mdp. Fonte: próprio autor.
PyMOL permite ainda visualizar o alinhamento de sequências na interface

acima do alinhamento estrutural. Para isso, basta clicar no botão com a letra
S no canto inferior direito (Figura 14).
Figura 14. Alinhamento estrutural e de sequências na interface do PyMOL. Fonte: próprio

autor.
PyMOL permite ainda ampliar a visualização de uma região específica. Para

isso, selecione a região desejada com base na visualização das sequências
alinhadas, ou clique sobre os aminoácidos desejados (você pode pressionar

SHIFT para selecionar mais de um aminoácido). A seguir, clique com o botão

direito sobre a sequência selecionada e vá em zoom (Figura 15).
Figura 15. Ampliando uma região (zoom) na interface do

O PyMOL irá gerar uma visualização mais próxima da região desejada (Figura
16). Você pode ainda usar o mesmo processo para centralizar a região
desejada (no caso, clique na opção center). Ou ainda pode esconder a
região clicando em hide, exibir os rótulos com nomes dos aminoácidos e
átomos clicando em label, ou alterar as cores clicando em color.

Figura 16. Zoom em uma região alinhada no PyMOL. Fonte: próprio autor.
Estudo de caso 2: alinhamento entre duas lisozimas
Para compreendermos melhor como funciona o algoritmo de alinhamento

padrão do PyMOL, neste novo exemplo, realizaremos um alinhamento da
estrutura de cristal de uma lisozima (PDB ID: 2LZM) com uma estrutura cuja
diferença se trata de um aminoácido não natural p-iodo-L-fenilalanina na
posição 153 (PDB ID 1T6H).
Para realizar o alinhamento das estruturas, PyMOL inicialmente utiliza

programação dinâmica para realizar um alinhamento de sequências. Na
prática, ele realiza um alinhamento usando a ferramenta BLAST com base na
matriz de pontuação BLOSUM62 (não precisamos entrar em detalhes, pois
esses são parâmetros-padrão de execução do BLAST). Podemos simular essa
primeira etapa executando o alinhamento das sequências usando a
ferramenta BLAST web (disponível em https://blast.ncbi.nlm.nih.gov). Observe
o resultado do alinhamento:
Aqui podemos ver que ambas as sequências possuem 164 aminoácidos com
uma identidade superior a 99% (163 dos 164 resíduos coincidem). Veja que o
alinhamento nos dá uma tabela de correspondência entre resíduos. Por
exemplo, a metionina na posição 1 (resíduo M1) de 2LZM é equivalente a

metionina na posição 1 de 1T6H. O mesmo vale para N2, I3, F4, E5 e assim
sucessivamente. De fato, essa regra valerá para quase todos os resíduos
(exceto F153 de 2LZM). Por ter estruturas bastante similares, esse exemplo
poderá facilitar a compreensão da primeira etapa da estratégia de
alinhamento do PyMOL.
Agora que temos a tabela de correspondentes, vamos para a próxima etapa.

A seguir, PyMOL coleta as coordenadas dos carbonos-alfa de cada um dos
resíduos. Lembre-se que cada resíduo de aminoácido terá um único
carbono-alfa localizado em sua cadeia principal e cada átomo desses terá
três valores de coordenadas de posicionamento (aqui denominadas X, Y e Z).
Na Figura 17 apresentamos uma visualização da estrutura de 2LZM (Figura
17A) e 1T6H (Figura 17D). Em Figura 17 B,E são apresentados apenas os
carbonos-alfa de cada uma dessas proteínas e na Figura 17C,F uma linha
interligando esses átomos foi inserida para destacar a forma da proteína.
Figura 17. Estruturas de 2LZM e 1T6H. (A) Visualização em cartoon e linhas azuis de
2LZM. (B) Visualização dos carbonos-alfa de 2LZM como esferas azuis. (C, F) Linhas que
interligam os carbonos-alfa vizinhos foram utilizadas para destacar a forma da proteína.
(D) Visualização em cartoon e linhas amarelas de 1T6H. (E) Visualização dos carbonos-alfa
de 1T6H como esferas amarelas. Figura gerada com PyMOL. Fonte: próprio autor.
PyMOL irá utilizar apenas as posições das coordenadas desses átomos para a
realização da sobreposição. É importante levar em consideração que apesar
das proteínas serem bastante parecidas, as coordenadas dos átomos são
bastante diferentes. Na Figura 18 podemos ver que, quando as duas
estruturas são plotadas em um mesmo espaço conformacional, isto é,
quando abertas em uma mesma sessão do PyMOL, os átomos estão
localizados em posições diferentes.

Figura 18. Estruturas de 2LZM (azul) e 1T6H (amarelo) quando plotadas em um mesmo
espaço conformacional. Fonte: próprio autor.
Para que possamos visualizar como uma estrutura se sobrepõe a outra,

devemos alterar as coordenadas geográficas de uma das estruturas
utilizando as regras de rotação e translação (lembre-se que se o algoritmo
decidir rotacionar um dos átomos, todos os outros da mesma estrutura serão
afetados). Assim, PyMOL utilizará a matriz de correspondência de resíduos
para reposicionar os átomos da segunda proteína (no caso, escolhemos
reposicionar os átomos de 1T6H).
Na Figura 19, vemos dois pares de resíduos correspondentes usados como

exemplo. O primeiro deles é R125 de 2LZM, que obviamente corresponde a R125
de 1T6H. Para alinhar esses dois resíduos, a ferramenta poderia fazer um
movimento de translação, movendo a posição de R125 de 1T6H para próximo
da posição do resíduo equivalente em 2LZM. Perceba que ao fazer isso, todos
os outros átomos seriam afetados. Para tentar melhorar esse processo, a
ferramenta poderia efetuar um processo de rotação usando um segundo
resíduo (no exemplo, E10). E assim, a ferramenta deveria realizar esse
processo para outros resíduos, mas como ela saberia que o alinhamento está
bom? Basta calcular a distância entre pontos equivalentes. Se a distância de
R125 de 2LZM para R125 de 1T6H é, por exemplo, 50 Å (1 Å é equivalente a
10 10 m) e após a translação/rotação, essa distância reduziu para 1 Å,
podemos concluir que o alinhamento está melhor. Após rodadas de
translação e rotação, esse mesmo cálculo é feito para todos os átomos e
depois é calculada uma média (chamamos isso de RMSD ou Root-mean-
square deviation of atomic positions que pode ser traduzido para “desvio
quadrático médio das posições atômicas”).

Figura 19. Compreendendo os movimentos de rotação e translação no algoritmo de

alinhamento estrutural do PyMOL. Fonte: próprio autor.
Na prática, o algoritmo de sobreposição é um pouco mais complicado do que

o exemplo apresentado. Entretanto, o objetivo aqui é apresentar de forma
didática como ele funciona de maneira geral, focando principalmente na
compreensão dos movimentos de rotação e translação. Ao fim, em um
alinhamento bom, as coordenadas de átomos dos carbonos-alfa irão se
sobrepor e isso permitirá que possamos visualizar as proteínas sobrepostas
(como visto na Figura 20).
Figura 20. Sobreposição entre carbonos-alfa (esquerda) de 2LZM (azul) e 1T6H (amarelo).
À direita podemos ver as estruturas completas sobrepostas representadas em forma de
cartoon. Fonte: próprio autor.
Estudo de caso 3: alinhamento entre proteínas com

sequências pouco idênticas
Nos exemplos anteriores, demonstramos a visualização de um alinhamento
entre duas proteínas com estrutura conservada. Entretanto, o que
aconteceria se alinhássemos duas proteínas com estruturas bastante
diferentes. Para ilustrar esse hipotético problema, vamos utilizar dois PDBs
escolhidos aleatoriamente: 1mdb (uma ligase) e 2lzm (uma lisozima de um
bacteriófago).
Primeiro, vamos carregar os arquivos PDB de 1mdb e 2lzm usando o comando

fetch:

fetch 1mdb
fetch 2lzm
E a seguir, realizar o alinhamento das duas estruturas usando a interface do

PyMOL (Figura 21).
Figura 21. Alinhamento estrutural de 1mdb e 2lzm. Fonte: próprio autor.
Ao tentar alinhar duas proteínas com estruturas pouco similares, PyMOL

tentará encontrar a maior quantidade de regiões com sequências parecidas
e tentará de alguma forma alinhá-los. Em estruturas pouco similares, isso irá
gerar um alinhamento ruim. Podemos ver isso, observando as linhas
amarelas que conectam pontos equivalentes em que houve a tentativa de
alinhamento (Figura 22).

Figura 22. Alinhamento estrutural de 1mdb e 2lzm. Linhas amarelas representam pontos
em que houve uma tentativa de alinhamento. Fonte: próprio autor.
Observe que não há praticamente nenhuma sobreposição entre estruturas

secundárias. Isso se deve ao fato do PyMOL, por padrão, usar uma estratégia
baseada em alinhamento de sequências. Como as sequências apresentam
uma alta discrepância (Figura 23), os poucos resíduos alinhados levarão a
um alinhamento estrutural ruim.
Figura 23. Alinhamento de sequências de 1mdb e 2lzm. Percebam que há poucos resíduos
similares. Fonte: próprio autor.
Podemos obter resultados melhores usando os outros métodos de

alinhamento presentes no PyMOL, mas para isso precisamos introduzir o uso
de alinhamentos por linhas de comando.

Alinhando estruturas por linha de comando

com PyMOL
P
yMOL é uma ferramenta de visualização de moléculas com uma
grande quantidade de recursos em sua interface. Dentre esses
recursos, se encontra o painel do terminal de linha de comandos.
Por meio desse terminal é possível realizar inúmeras análises,
como por exemplo, alinhamento de estruturas. Esse tipo de alinhamento pode
ser realizado pela interface gráfica, entretanto, usando o terminal podemos
facilmente realizar um alinhamento usando o comando align.
Terminal PyMOL: comando align

A sintaxe do comando é a seguinte:
align objeto1, objeto2
onde objeto1 e objeto2 são os dois nomes dos objetos que armazenam as
estruturas que se deseja alinhar (os nomes são exibidos no painel à direita).
O comando align usa o método padrão de alinhamento do PyMOL.

Sucintamente, ele utiliza um algoritmo de superposição baseado em duas
etapas:
alinhamento de sequências utilizando BLAST e a matriz BLOSUM62 para

detecção de resíduos correspondentes (por padrão, apenas os átomos da
cadeia principal são usados);
superposição dos átomos seguida por até cinco ciclos de refinamento

iterativo. Átomos que não atingem os critérios de corte estabelecidos são
excluídos das análises. Por fim, o número de átomos restantes é exibido
junto com o valor de RMS (root mean square, que pode ser traduzido como
“raiz do valor quadrático médio” ou “valor eficaz” como também é
conhecido).
No exemplo a seguir, vamos utilizar o comando align para alinhar as

estruturas do PDB de ID 2lzm com o PDB de ID 1a1m (Figura 24).

Figura 24. Alinhamento de sequências de 1mdb e 2lzm usando o comando align do PyMOL.
Observe que os resultados do alinhamento são exibidos no painel do terminal

de linha de comandos (na parte superior da imagem). Observe ainda que
inicialmente é realizado um alinhamento entre a estrutura com 282 resíduos e
a outra com 891. Detectou-se uma pontuação de alinhamento de 41. Com
base nos resíduos alinhados (não exibidos no painel), realizou-se uma
tentativa de sobreposição de 873 átomos. A seguir, cinco rodadas de novos
alinhamentos estruturais são realizadas tentando reduzir o RMSD. Perceba
que nessa etapa de refinamento do alinhamento, alguns átomos são
desconsiderados, uma vez que o algoritmo considera que mantê-los reduz a
precisão do resultado final. Por fim, obtêm-se o RMSD final e o total de átomos
usados no cálculo. No exemplo apresentado, o RMSD foi de ~22. Lembre-se
que valores altos de RMSD indicam uma sobreposição ruim entre estruturas.
Assim, podemos confirmar pela visualização das estruturas sobrepostas que
o alinhamento foi ruim.
Para mais informações sobre o comando align, como variações de

parâmetros, acesse: https://pymolwiki.org/index.php/Align. Para realizar um
alinhamento independente da sequência, recomenda-se o uso do comando
super.
Terminal PyMOL: comando super

O terminal de comando da ferramenta PyMOL permite a realização de
alinhamentos entre estruturas usando o comando align (que utiliza a mesma
metodologia do alinhamento realizado pela interface gráfica). Entretanto, o
comando align é recomendado para estruturas com uma identidade maior
do que 30%. Para realizar um alinhamento que considera uma melhor

sobreposição entre as estruturas de proteínas com sequências pouco

similares é recomendado o uso do comando super.
O comando super realiza alinhamento estrutural independente da sequência

(ao contrário de align) usando uma estratégia baseada em programação
dinâmica, seguido por uma série de ciclos de refinamento para remover
átomos outliers (etapa similar a última parte do algoritmo usado por align).
Por isso, o comando super é considerado mais robusto do que o comando
align para proteínas com baixa similaridade de sequência.
No exemplo a seguir, vamos utilizar o comando super para alinhar as

estruturas do PDB de ID 2lzm com o PDB de ID 1mdb (Figura 25).
Figura 25. Alinhamento de sequências de 1mdb e 2lzm usando o comando super do

Note que as sequências de 1mdb e 2lzm são pouco similares. Vemos também
uma baixa similaridade na estrutura; entretanto, ao utilizar o comando super,
PyMOL encontra partes da estrutura secundária que se coincidem (vemos por
exemplo, as hélices-alfa que se sobrepõe). Isso demonstra a maior eficácia
do comando super para detecção de estruturas secundárias mais similares
quando comparado ao método tradicional (comando align).
Para mais informações sobre o comando super, como variações de

parâmetros, acesse: https://pymolwiki.org/index.php/Super.

Alinhamento de estruturas 3D com TM-align

TM-align é um algoritmo desenvolvido para identificar o melhor alinhamento
possível entre um par de proteínas através de uma matriz de rotação
construída com o TM-Score e programação dinâmica [3]. Ele é descrito como
mais rápido, com maior precisão e cobertura que algoritmos conceituados
como DALI [7] e CE [8].
Figura 26. Logotipo do TM-align. Fonte: https://zhanglab.ccmb.med.umich.edu/TM-

align/.
O algoritmo realiza três etapas de alinhamentos iniciais rapidamente

calculados. Na primeira etapa, as estruturas secundárias das proteínas são
alinhadas usando programação dinâmica. A seguir, o algoritmo constrói uma
matriz binária (0 ou 1), que indica se há uma correspondência na estrutura
secundária do resíduo em questão [3]. Na segunda etapa, o alinhamento é
baseado na correspondência contínua das duas estruturas, a estrutura
menor e continuamente posicionada sobre a estrutura maior, e o
alinhamento com melhor TM-Score é selecionado. O terceiro alinhamento
também é obtido por programação dinâmica, mas a matriz de pontuação é
obtida das matrizes de pontuação dos dois alinhamentos anteriores.
O TM-align pode ser utilizado tanto online (webtool) quanto em ambiente

desktop (neste caso, a instalação deve ser feita em ambiente Linux por linha
de comando). Para utilizar a ferramenta web ou realizar o download do
código-fonte para a instalação local, acesse
https://zhanglab.ccmb.med.umich.edu/TM-align/.
Executando o TM-align pela Internet

Executar o TM-align pelo servidor web oficial é a forma mais simples de
utilização. Na ferramenta web (Figura 27), deve-se utilizar como entrada dois
arquivos no formato PDB ou PDBx/mmCIF (pode-se enviar os arquivos
separadamente ou apenas colar o texto correspondente dentro das caixas de
texto).

Figura 27. Exemplo de entrada de dados na página inicial do TM-align. Fonte:

Opcionalmente, os resultados podem ser enviados para o seu e-mail (nesse

caso, você deve preencher o campo Input Email). Por fim, execute o
alinhamento clicando em Run TM-align. Quando o processamento for
concluído, será exibida uma página com um resumo da execução e os
arquivos de resultados disponíveis para download.
A seguir, será apresentado um exemplo de uso. Para este estudo de caso,

ID: 3VIK). O primeiro passo foi acessar o site oficial usando um navegador de
internet (foi usado o Google Chrome). A seguir, realizamos o upload dos
arquivos de entrada no formato PDB (Figura 28).
Figura 28. Executando o TM-align para as entradas 3vik e 4mdp. Os arquivos PDB foram
baixados em https://www.rcsb.org/structure/3vik e https://www.rcsb.org/structure/4mdp,
respectivamente. Fonte: próprio autor.
A seguir, executamos as análises clicando em Run TM-align. Após o

processamento, a ferramenta web retornou um resumo do log de execução
com a referência bibliográfica para citação do uso da ferramenta, os dados

das estruturas de entrada, como nomes e tamanho de sequências, o valor do

TM-score e o alinhamento das sequências (Figura 29)
Figura 29. Resumo do alinhamento de 3vik com 4mdp. Fonte:

Além disso, a ferramenta retornou uma visualização tridimensional das

estruturas diretamente no navegador usando a biblioteca Jsmol (Figura 30),
além de links para o download dos arquivos de entrada e saída, e os arquivos
pdb para visualizar a sobreposição na ferramenta Rasmol (disponível em
http://www.openrasmol.org/).
Figura 30. Visualização do alinhamento de 3vik com 4mdp. Um exemplo de resultado

similar (mas com outras estruturas de entrada) pode ser encontrado em
https://zhanglab.ccmb.med.umich.edu/TM-align/example/873772.html. Fonte: próprio
autor.
Execução local do TM-align

Caso não deseje enviar os seus dados para o servidor web, você pode realizar
o download do código-fonte do TM-align e instalá-lo em sua máquina. A
versão em C++ do TM-align pode ser obtida em
https://zhanglab.ccmb.med.umich.edu/TM-align/TMalign.cpp. Entretanto,

antes de utilizá-la, você terá que realizar a compilação do código. Para isso,
execute no terminal Linux os comandos:
1. mkdir tm
2. wget https://zhanglab.ccmb.med.umich.edu/TM-align/TMalign.cpp
3. g++ TMalign.cpp -o tmalgin
4. ./tmalign protein1.pdb protein2.pdb
Na linha 1, o comando cria uma pasta para armazenar o arquivo. A linha 2

utiliza o comando wget para fazer o download do arquivo do código-fonte
(você pode baixá-lo manualmente). Na linha 3 é feita a compilação do
arquivo para gerar um executável chamado tmalign. Na linha 4 é finalmente
realizada a execução da ferramenta, em que protein1.pdb e protein2.pdb são
as estruturas que serão alinhadas.
O algoritmo irá rotacionar e transladar a primeira proteína para alinhá-la

com a segunda (que será a referência). O resultado será mostrado na saída
do terminal. A execução padrão do programa pode ser alterada usando
certos parâmetros, como por exemplo, o parâmetro -o, que gera arquivos
que podem ser visualizados em ferramentas como Rasmol e no PyMOL. Outro
parâmetro interessante é o -fast, que gera um alinhamento mais rápido.
Entretanto, isso gera uma redução na precisão do resultado. Existem outros
parâmetros que podem ser aplicados. Para obtê-los, consulte a
documentação do programa ou execute no terminal o comando:
./tmalign -h
Para ilustrar o uso local do TM-align, vamos reproduzir o estudo de caso

apresentado anteriormente. Neste caso, os arquivos PDB foram adicionados
ao mesmo diretório do arquivo executável tmalign. A seguir foi executado o
comando:
./tmalign 3vik.pdb 4mdp.pdb -o 3VIK_x_4MDP/Out
Isso fará com que o TM-align alinhe as duas proteínas de exemplo e escreva
o resultado dentro da pasta 3VIK_x_4MDP. Além disso, os arquivos de saída
serão iniciados com a palavra “Out” (Figura 31), sendo “Out.pdb” o arquivo
correspondente à proteína rotacionada escrita em formato PDB.

Figura 31. Arquivos resultantes da execução do TM-align. Fonte:

próprio autor.
Como vantagem do uso do TM-align por linha de comando, podemos

destacar que a realização de alinhamentos pode ser automatizada através
de qualquer linguagem de programação que tenha acesso aos comandos do
sistema. Por exemplo, a linguagem Python possui a biblioteca “os” que
fornece métodos de acesso a funcionalidades do sistema operacional. Para
executar o TM-align seria possível usar a função os.system( ) da seguinte
forma:
import os
os.system("./tmalign protein1.pdb protein2.pdb")

Alinhamento de estruturas 3D com o software

Multiprot
MultiProt é um software automatizado e eficiente para detecção de múltiplos
alinhamentos estruturais de proteínas. Seu princípio básico visa encontrar os
núcleos geométricos comuns entre as moléculas de entrada. Isso não exige
que todas as moléculas de entrada participem do alinhamento, o que
permite que o algoritmo seja mais rápido e eficiente quando comparada a
outros alinhadores estruturais, permitindo ainda alinhar várias estruturas ao
mesmo tempo [9]. Multiprot pode ser executado pelo site
http://bioinfo3d.cs.tau.ac.il/MultiProt ou pode ser instalado localmente e
executado via linha de comando.
Executando o Multiprot localmente

Multiprot pode ser baixado para execução em servidor Linux pelo endereço:
http://bioinfo3d.cs.tau.ac.il/MultiProt/index_v1.6.html. Os arquivos do Multiprot
estão compactados em formato tar. Após a extração (utilize o comando tar -
xvf multiprot[versão-atual].tar para descompactar), execute o arquivo
multiprot.Linux, que está dentro da pasta extraída:
./multiprot.Linux protein1.pdb protein2.pdb protein3.pdb

protein4.pdb
Em que protein1.pdb, protein2.pdb, protein3.pdb e protein4.pdb são os

caminhos para os arquivos em formato PDB das proteínas a serem alinhadas.
O programa gera três arquivos de saída:
log_multiprot.txt, que contém os parâmetros utilizados no alinhamento e

a saída do programa;
n_sol.res (em que “n” é o número de moléculas alinhadas), que contém o

registro das equivalências. O programa pode gerar mais de uma possível
solução para as equivalências. Elas são numeradas e descritas nesse
arquivo;
n_sets.res (em que “n” é o número de moléculas alinhadas), que contém

uma lista com os fragmentos contíguos multiplamente alinhados.
A seguir, será apresentado um exemplo de uso. Para este estudo de caso,

ID: 3VIK). Os arquivos PDB de 3VIK e 4MDP foram baixados em
https://www.rcsb.org/structure/3vik e https://www.rcsb.org/structure/4mdp,
respectivamente. Eles foram movidos para o mesmo diretório em que se
encontra o executável do Multiprot, que foi executado via terminal pelo
comando:

./multiprot.Linux 3VIK.pdb 4MDP.pdb
Esse comando gerou como saída o arquivo log_multiprot.txt (Figura 32A),

que contém o log de execução com parâmetros e informações, como por
exemplo, o tempo de execução e o tamanho da maior solução de
alinhamento proposta. A principal saída é o arquivo 2_sol.res (Figura 32B),
que contém os pares de átomos alinhados com os equivalentes na outra
proteína. Além disso, é criado o arquivo 2_sets.res (Figura 32C), que contém
uma lista dos arquivos de entrada e algumas configurações usadas na
execução do programa.
(A)

(B)
(C)
Figura 32. Resultados do Multiprot. (A) Arquivo log_mutiplot.txt.

(B) Fragmento do arquivo gerado 2_sol.res. (C) Arquivo gerado
2_sets.res. Fonte: próprio autor.
Nesse exemplo do alinhamento de 3VIK com 4MDP (Figura 32B), vemos que o
Multiprot considerou que o resíduo V28 da cadeia A de 3VIK está em uma
posição equivalente ao resíduo M1 da cadeia A de 4MDP. Vemos ainda outras
correspondências como T30 com L472, F31 com L3, P32 com P4, D33 com P5,
E34 com D6 e assim por diante. Perceba que os resíduos não precisam ser
iguais para que Multiprot indique uma correspondência. Para que haja
correspondência, Multiprot detecta o resíduo mais próximo da referência
quando as proteínas forem sobrepostas. Parâmetros podem ser utilizados
ainda para definir qual será o ponto de referência (em geral, é utilizada a
coordenada do carbono-alfa). Para conferir quais parâmetros podem ser
modificados, consulte a documentação.

Alinhamento de estruturas 3D com o software

MUSTANG
M
USTANG (MUltiple protein STructural AligNment alGorithm) [10]
é um software desenvolvido para realizar alinhamento
estrutural múltiplo de proteínas (Figura 33). Possui código-
aberto desenvolvido em C++. Sua estratégia de alinhamento
sobrepõe as estruturas a partir das posições espaciais dos carbonos alfa (Cα)
dos aminoácidos. O seu algoritmo utiliza uma heurística progressiva em
pares e passos de refinamentos são realizados para otimizar o resultado, a
fim de encontrar bons alinhamentos.
Figura 33. Logotipo da ferramenta Mustang. Fonte:

https://lcb.infotech.monash.edu/mustang/.
Instalação do MUSTANG
A versão atual da ferramenta MUSTANG pode ser baixada através da página:

https://lcb.infotech.monash.edu/mustang/. Para instalar o MUSTANG no
sistema operacional Linux, com distribuições baseadas no Debian (Ubuntu
por exemplo), basta executar o comando:
>> sudo apt-get install mustang
Para sistemas operacionais Windows e demais distribuições Linux, é

necessário realizar o download do código-fonte e compilá-lo no computador.
Para isso, o computador deve possuir o compilador g++ que irá compilar o
código-fonte e irá criar o executável do MUSTANG. Os passos a seguir
descreverão esta etapa.
Para Windows, baixe e instale MinGW. Após a instalação, irá surgir uma janela
para gerenciar os compilares a serem instalados. Nela, clique em “All
Packages” e marque os pacotes “mingw32-gcc-v3-g++-bin” e “mingw32-
make-bin” (Figura 34).

Figura 34. Instalando os pacotes necessários para compilar o MUSTANG. Fonte: próprio
autor.
Utilizando o MUSTANG por linha de comando

Para utilizar o Mustang via linha de comando, deve-se informar o comando
mustang seguido do parâmetro -i e os arquivos de entrada, como por
exemplo:
>> mustang -i proteina1.pdb proteina2.pdb
No exemplo a seguir, é realizado o alinhamento entre os arquivos PDB de

código 1a1m e 1a1n (Figura 35). Para alinhar as duas estruturas de proteínas
foi usada a opção -i: 1a1m_C_A.pdb e 1a1n_C_A.pdb. Ainda foi requisitado o
RMSD (opção -r ON) e o arquivo de saída contendo as estruturas sobrepostas
foi descartado (opção -s OFF).
Figura 35. Exemplo de execução do MUSTANG, alinhando duas estruturas de proteínas

(opção -i: 1a1m_C_A.pdb e 1a1n_C_A.pdb), retornando o resultado do RMSD (opção -r
ON) e descartando o arquivo de saída contendo as estruturas sobrepostas (opção -s OFF).
Como resultado, obteve-se um arquivo no formato HTML (Figura 36). Por ele é
possível ver o alinhamento estrutural simplificado em suas sequências. O
formato HTML permite que o arquivo seja visualizado em navegadores, como

Chrome e Firefox, e com isso, destacando com cores a natureza química dos
aminoácidos.
Figura 36.: Exemplo do arquivo de saída results.html. Fonte: próprio autor.

Alinhamentos híbridos com PROMALS3D

Ao acessar a página do PROMALS3D, o usuário encontrará a seguinte
interface (Figura 37). PROMALS3D permite usar como entrada sequências no
formato FASTA. Opcionalmente, o usuário pode utilizar como entrada arquivos
de estruturas de proteínas ou apenas informar o código identificador no PDB.
Para executar, basta clicar no botão “Submit”.
Figura 37. Visão geral da interface do servidor web do

PROMALS3D. Fonte: próprio autor.
Após o processamento dos dados, PROMALS3D retornará a seguinte página

de resultados (Figura 38). Essa página irá permitir o download dos dados de
alinhamento em diversos formatos, como o formato padrão do PROMALS3D, o
formato CLUSTAL e o formato FASTA.

Figura 38. Página de resultado do PROMALS3D. Fonte: próprio

autor.
O principal resultado do PROMALS3D pode ser obtido clicando no botão

“show” da aba “Alignment results”. Para demonstrar um exemplo real,
realizamos o alinhamento da beta-glicosidase do fungo Humicola insolens
ID: 3VIK). Usamos como entrada apenas os códigos PDB ID (4MDP e 3VIK). Na
Figura 39, vemos os alinhamento das duas sequências.

Figura 39. Resultado de alinhamento do PROMALS3D. Fonte:

próprio autor.
Perceba que acima de cada bloco de linhas dos alinhamentos, temos uma
marcação de valor que indica se a posição é conservada ou não (valores
inteiros entre 0 e 9, com 9 correspondendo à maior conservação). Abaixo de
cada bloco temos a estrutura secundária predita, sendo a letra “e” (com
fundo salmão) utilizada para indicar fitas-beta e a letra “h” (com fundo azul)
utilizada para indicar hélices-alfa. As cores de cada resíduo também indicam
a estrutura secundária, sendo vermelho indicando que o resíduo se encontra
em uma hélice-alfa e azul indicando que se encontra em uma fita-beta.

Referências do capítulo
[1] Approximate protein structural alignment in polynomial time. Rachel
Kolodny, Nathan Linial Proceedings of the National Academy of Sciences Aug
2004, 101 (33) 12201-12206; DOI: doi.org/10.1073/pnas.0404383101
[2] Antczak, M., Kasprzak, M., Lukasiak, P. et al. Structural alignment of protein
descriptors – a combinatorial model. BMC Bioinformatics 17, 383 (2016).
https://doi.org/10.1186/s12859-016-1237-9
[3] Yang Zhang, Jeffrey Skolnick, TM-align: a protein structure alignment

algorithm based on the TM-score, Nucleic Acids Research, Volume 33, Issue 7,
1 April 2005, Pages 2302–2309, https://doi.org/10.1093/nar/gki524
[4] John Rozewicki, Songling Li, Karlou Mar Amada, Daron M Standley, Kazutaka
Katoh, MAFFT-DASH: integrated protein sequence and structural alignment,
Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W5–W10,
https://doi.org/10.1093/nar/gkz342
[5] Jun Hu, Zi Liu, Dong-Jun Yu, Yang Zhang, LS-align: an atom-level, flexible
ligand structural alignment algorithm for high-throughput virtual
screening, Bioinformatics, Volume 34, Issue 13, 01 July 2018, Pages 2209–
2218, https://doi.org/10.1093/bioinformatics/bty081
[6] https://zhanglab.ccmb.med.umich.edu/TM-align/(arquivo README e

interface)
[7] HOLM, Liisa; SANDER, Chris, Protein structure comparison by alignment of

distance matrices, Journal of molecular biology, v. 233, n. 1, p. 123–138, 1993.
DOI: https://doi.org/10.1006/jmbi.1993.1489
[8] I N Shindyalov, P E Bourne, Protein structure alignment by incremental

combinatorial extension (CE) of the optimal path., Protein Engineering, Design
and Selection, Volume 11, Issue 9, Sep 1998, Pages 739–747,
https://doi.org/10.1093/protein/11.9.739
[9] Shatsky M., Nussinov R., Wolfson H.J. (2002) MultiProt — A Multiple Protein
Structural Alignment Algorithm. In: Guigó R., Gusfield D. (eds) Algorithms in
Bioinformatics. WABI 2002. Lecture Notes in Computer Science, vol 2452.
Springer, Berlin, Heidelberg Doi https://doi.org/10.1007/3-540-45784-4_18
[10] http://bioinfo3d.cs.tau.ac.il/MultiProt/index_v1.6.html (arquivo README)

[11] Konagurthu, Arun S., et al. “MUSTANG: a multiple structural alignment

algorithm.” Proteins: Structure, Function, and Bioinformatics 64.3 (2006): 559-
574.
[12] Wierenga RK (March 2001). “The TIM-barrel fold: a versatile framework for
efficient enzymes”. FEBS Letters. 492 (3): 193–8. doi:10.1016/s0014-
5793(01)02236-0. PMID 11257493. S2CID 42044123.

08
BI OI NF ORM ÁT I CA ES T RUT U RAL
Modelagem computacional de proteínas

By Laboratório de Bioinformática e Sistemas
11 de julho de 2021
Modelagem computacional de proteínas

Letícia Xavier Silva , Luana Luiza Bastos , Lucianna Helene Santos
DOI: 10.51780/978-6-599-275326-08
A
s proteínas são as macromoléculas mais abundantes e cada
célula de um ser vivo pode conter milhares de proteínas, cada
uma com uma função única. A função de uma proteína é
definida pelo arranjo dos átomos, presentes na sequência de
aminoácidos, em sua estrutura tridimensional [1]. A relação arranjo
tridimensional e função pode, por exemplo, depender da posição dos
resíduos catalíticos no sítio ativo da proteína, ou uma possível resposta
conformacional ao interagir com outras moléculas, entre outros fatores. Com
isso, a determinação da estrutura proteica fornece uma melhor compreensão
do funcionamento da proteína, permitindo criar proposições sobre como
afetá-la, controlá-la ou modificá-la. Por exemplo, com a estrutura podemos
projetar mutações pontuais em uma região da proteína com a intenção de
alterar a função ou tentar prever moléculas que possivelmente se ligam a ela.
Todas as estruturas tridimensionais de macromoleculares são modelos, com

níveis variáveis entre dados experimentais e predição computacional [2].
Geralmente, para se obter as coordenadas atômicas de átomos pesados
com uma certa precisão são necessárias técnicas experimentais, como a
cristalografia de Raios-X, Ressonância Magnética Nuclear (RMN) e Crio
Microscopia Eletrônica (cryo-EM) [3,4]. Os dados oriundos dessas técnicas
dependem em sua maioria de ferramentas computacionais para a
interpretação espacial dos dados, construção e refinamento dos modelos [2].
Apesar da confiabilidade dos modelos estruturais gerados por técnicas
experimentais, resolver estruturas usando essas técnicas requer treinamento
extremamente especializado, um alto grau de habilidade, um bom
orçamento, e o alvo molecular expresso e purificado em grande quantidade.
Considerando a taxa em que novas sequências de proteínas são

descobertas, a dificuldade de resolver uma estrutura experimental, com as
tecnologias disponíveis atualmente, é evidente. Embora o número de
estruturas tridimensionais esteja crescendo continuamente, o banco de
dados de proteínas, Protein Data Bank (PDB) [5], possui cerca de 175.000
estruturas resolvidas atualmente (março/21), uma grande lacuna entre
estruturas e sequências disponíveis (Figura 1) ainda persiste. Isso se observa

no número de sequências disponíveis no UniProt [6], que é 1200 vezes maior

que o número de estruturas tridimensionais disponíveis. Portanto,
comparando os dois conjuntos estamos provavelmente perdendo
importantes informações biológicas e biofísicas, já que nem todas as novas
proteínas sendo identificadas e sequenciadas tem sua estrutura
tridimensional elucidada [2]. Nesse sentido, a predição computacional (in
silico) da estrutura tridimensional de proteínas se torna uma alternativa à
medida que essa lacuna cresce [7].
Figura 1. Crescimento do número de sequências de proteínas e de estruturas

tridimensionais ao longo do tempo em bases de dados específicas. Swiss-Prot e TrEMBL
são bases de dados de sequências e fazem parte do UniProt [6]. Porém, Swiss-Prot contém
apenas sequências manualmente anotadas, enquanto o TrEMBL compreende as sequências
automaticamente anotadas. Como a diferença no número de entradas entre TrEMBL,
Swiss-Prot e PDB [5] é muito significativa, a escala logarítmica foi usada para aproximar a
visualização no gráfico. Os dados foram obtidos em março de 2021.
A partir dos métodos de predição computacional é possível obter

informações estruturais utilizando a sequência de aminoácidos de uma
proteína cuja estrutura não foi determinada experimentalmente. No passado
esse tipo de predição era visto como um desafio, porém, com o progresso
dos algoritmos computacionais ao longo dos anos e uma disponibilidade
maior de enovelamentos proteicos conhecidos, se tornou funcional com
previsões plausíveis e razoavelmente precisas em muitos casos [8]. As
técnicas de predição de estrutura computacionais são classificadas em dois
grupos: técnicas baseadas em estruturas tridimensionais conhecidas e
técnicas independentes de estruturas conhecidas. Com uma estrutura
conhecida, o espaço de busca por uma nova proteína é diminuído, pois a
exploração se dá por modificação da estrutura (chamada de molde ou
template) tridimensional resolvida por métodos experimentais [9]. Dentro
desse grupo se encontram as abordagens por modelagem comparativa e
por threading. Para as técnicas independentes de um molde, informações
estruturais são obtidas através de vários fragmentos ou da predição de

estrutura secundária de proteínas não relacionadas a proteína que se quer

modelar. Nesse grupo se encontra as abordagens ab initio e de novo [10].
Figura 2. Escala entre métodos de predição de estrutura tridimensional de proteínas e

identidade de sequência com as estruturas existentes. Para cada técnica um certo grau de
similaridade é necessário, medido pela taxa de identidade entre a sequência alvo e
sequências de estruturas conhecidas (a serem usadas como moldes).
Consequentemente, a escolha da metodologia de predição computacional a

ser utilizada está condicionada a disponibilidade de estruturas
tridimensionais, e a taxa de semelhança entre a sequência e uma estrutura
do PDB (Figura 2). A semelhança entre molde e estrutura a ser modelada
pode ser determinada pelo alinhamento de sequências, onde se obtém os
valores de similaridade, identidade e cobertura entre elas. Por exemplo,
abordagens de modelagem comparativa funcionam bem para proteínas
com pelo menos 70% de identidade entre as sequências. Aproximando-se de
50%, a seleção de modelos torna-se mais difícil. Próximo dos 30%, ou a
“twilight-zone”, torna-se extremamente difícil, porque quaisquer dois pares
aleatórios de proteínas podem ter esse nível de identidade de sequência.
Os métodos de predição estrutural computacional também possuem

limitações que devem ser atenciosamente avaliadas para entender o grau de
confiança depositada nos modelos [9]. Para modelos baseados em moldes,
podemos dizer que as estruturas resultantes terão qualidade comparável
com as estruturas experimentais utilizadas ou pior. Dependendo das métricas
de confiança, avaliadas por ferramentas de validação, os modelos podem ser
utilizados em conjunto com outros métodos, tais como dinâmica molecular e
atracamento molecular. Porém, existe um interesse contínuo dos
pesquisadores em melhorar a predição de estruturas tridimensionais. Esse
interesse pode ser visto na competição bienal chamada de CASP (Critical
Assessment of protein Structure Prediction; predictioncenter.org). Desde 1994,
o CASP oferece melhorias significativas na acurácia da predição os modelos,
no alinhamento de sequências, na modelagem de estruturas secundárias, na
montagem de proteínas e no refinamento final dos modelos [9]. E, como
resultado dessa competição, diferentes técnicas são implementadas e
aprimoradas, podendo ser usadas com maior confiança pela comunidade
científica.
Métodos dependentes de molde

Como mencionado anteriormente, os métodos baseados em molde partem

do princípio de que a estrutura tridimensional de uma proteína se mantém
mais conservada ao longo da evolução. Consequentemente, alterações na
sequência dos aminoácidos podem acarretar apenas pequenas
modificações em sua estrutura tridimensional [11]. Ou seja, os métodos dessa
categoria consideram que proteínas que possuem sequências semelhantes
se enovelam em estruturas praticamente idênticas. Até mesmo sequências
que possuem identidade baixa entre si (até 20% de identidade) podem
assumir estruturas tridimensionais semelhantes. Portanto, existindo uma
estrutura experimentalmente resolvida é possível construir um modelo
tridimensional para uma proteína com estrutura desconhecida.
A origem das abordagens baseadas em molde pode ser datada no ano de

1969 quando tentativas de construção da estrutura de alfa-lactalbumina
usando a estrutura da lisozima da clara de ovo de galinha como modelo
foram publicadas por Browne e colaboradores [12]. A partir dessa década
vários trabalhos surgiram melhorando e dando maior confiabilidade as
técnicas de predição de estrutura, desempenhando um papel econômico em
aplicações baseadas em estrutura e na caracterização de propriedades e
funções de proteínas [13]. Nas próximas subseções discutiremos as duas
metodologias dependentes de moldes mais populares, modelagem
comparativa e threading.
Modelagem comparativa
Entre as técnicas baseadas em molde, a modelagem comparativa, também
chamada anteriormente de modelagem por homologia, é a metodologia
mais utilizada para a predição da estrutura da proteína quando apenas os
dados da sequência estão disponíveis. Para que se possa adotar essa
abordagem, é necessária uma proteína-molde (ou template) com estrutura
tridimensional resolvida disponível. Esta deve apresentar uma estrutura
primária com identidade mínima, entre 25% e 30%, com a sequência da
proteína que se deseja modelar (proteína-alvo). É a partir da base estrutural
do molde que será possível propor um modelo tridimensional para a
sequência de aminoácidos da proteína-alvo [14,15].
A obtenção de um modelo tridimensional através da modelagem

comparativa segue quatro etapas principais (Figura 3) [16]. São elas:

Figura 3. Fluxograma etapas da modelagem comparativa.
1. seleção da proteína-molde – identificação de uma ou múltiplas

estruturas primárias de proteínas resolvidas experimentalmente com
similaridade com a sequência da proteína-alvo pela ferramenta Basic
Local Alignment Search Tool (BLAST) [17]. Fatores como similaridade,
identidade, número de gaps e cobertura são avaliados contra as
sequências na base de dados de estruturas conhecidas, PDB [5], para
determinar os melhores moldes. Encontrando resultados, outros fatores
como função biológica, qualidade da estrutura experimental, presença de
ligantes, substratos e cofatores são empregados para a escolha do molde;
2. alinhamento da estrutura primária do molde e do alvo – escolhido o(s)

molde(s), é feito o alinhamento entre sequência alvo e molde(s). Os
alinhamentos da etapa anterior são feitos para buscar as sequências
apenas. Porém, nessa segunda etapa, um alinhamento mais rebuscado é
necessário para gerar a cadeia principal da estrutura [9]. Regiões que não
possuem correspondência nas sequências precisam ser desconsideradas
ou preenchidas com gaps. Ligantes, substratos, e outros cofatores
precisam ter sua importância estudada nas estruturas de referência para
serem incluídos ou não nos modelos criados;
3. construção do modelo – feita a partir das informações estruturais do(s)

molde(s) escolhido(s). Os dois métodos mais aplicados para a construção
são os métodos de satisfação de restrições espaciais [14] e união de
corpos rígidos [18]. O método de satisfação de restrições espaciais
assume que vários parâmetros geométricos, como distâncias e ângulos
são conservados entre proteínas homólogas, ao comparar as posições
equivalentes oriundas do alinhamento de sequências. Já nos métodos
baseados em união de corpos rígidos, o modelo é montado a partir de um
pequeno número de corpos rígidos obtidos das cadeias principais das
regiões alinhadas [19,20]. Nesse método a modelagem envolve encaixar as
regiões rígidas comuns na estrutura modelada e reconstruir as regiões
não conservadas, ou seja, cadeias laterais e alças (loops) [21]; e
4. avaliação do modelo – gerados os modelos, estes são avaliados para

determinar a qualidade e adequação da estrutura tridimensional criada.
Geralmente, os programas geram muitos modelos e os classificam de
acordo com um ou mais método de pontuações. Uma vez que cada
método avalia o modelo criado de uma perspectiva diferente, a
combinação de vários métodos de avaliação pode permitir a obtenção de
um modelo mais confiável [9]. Uma das avaliações empregada é o gráfico
de Ramachandran, que mostra se os resíduos do modelo tridimensionais
estão em regiões previamente estabelecidas como permitidas de acordo
com os ângulos de torção φ e ψ dos resíduos. A avaliação pode não ser a
etapa final na modelagem comparativa, uma vez que alguns erros no
alinhamento ou na construção podem acontecer e exigir a repetição das
etapas anteriores do processo (Figura 3).
Os softwares para modelagem comparativa, MODELLER [14] e SWISS-MODEL

[18] serão discutidos em detalhes e com exemplos práticos mais adiante.

Tutorial: modelagem de proteínas usando MODELLER
Nesta seção será abordado a ferramenta MODELLER. O MODELLER é um

software com vários pacotes criado por Andrej Sali e Tom L. Blundell em 1989
[14]. O MODELLER é uma ferramenta gratuita com uso restrito a linha de
comando e não possui interface gráfica de usuário. Atualmente, o MODELLER
utiliza a linguagem Python como linguagem de controle, o que também é um
requisito para o funcionamento do programa. Com isso, todos os scripts para
realizar a modelagem são desenvolvidos em Python. O programa pode ser
rodado nos sistemas operacionais baseados em UNIX, Windows e Mac.
Para a construção do modelo tridimensional, o MODELLER utiliza o método de

satisfação de restrições espaciais. Através do alinhamento das sequências,
características espaciais como as distâncias entre carbonos-alfa (Cα – Cα) e
ângulos diedrais da cadeia principal e lateral dos resíduos são transferidos
da estrutura molde para a estrutura alvo. Essas restrições espaciais são
obtidas de forma empírica, a partir de uma base de dados contendo
informações sobre o alinhamento de proteínas com estruturas conhecidas
presentes em famílias proteicas.
As restrições estereoquímicas, como comprimentos e ângulos de ligação, e

contatos atômicos não ligados, são obtidos dos campos de força da
mecânica molecular. As restrições espaciais e os termos obtidos pelo campo
de força são combinados em uma função objetivo. A função objetivo é
otimizada no espaço Cartesiano visando minimizar as violações de todas as
restrições utilizando os métodos de gradiente conjugado e dinâmica
molecular por simulated annealing. Portanto, vários modelos com pequenas
variações são calculados amostrando a estrutura inicial, e a variabilidade
entre os modelos contribuem para melhor estimar o enovelamento da
proteína-alvo.
Usando o MODELLER para modelagem comparativa

Como falado anteriormente, o MODELLER não possui uma interface gráfica,
sendo restrito o uso da linha de comando. Para instalação é necessária uma
licença de utilização para usuários que pode ser solicitada no site do
software.

Link para download e guias de instalação | Link para licença
A seguir vamos detalhar o passo-a-passo para a construção de um modelo

utilizando o MODELLER, para uma sequência de interesse, seguindo as etapas
mencionadas anteriormente.
1. Seleção da proteína-molde
Para seleção do melhor molde, considera-se inicialmente alguns fatores

importantes entre a estrutura primária da proteína-alvo e da proteína-molde.
Como, identidade entre as sequências acima de 25%, e se a semelhança
entre sequências é significativa com toda a extensão da nossa sequência
alvo (parâmetro de cobertura). A medida de significância estatística, E-value,
também deve ser avaliada. O valor de E-value compara o número de
alinhamentos que seriam esperados apresentando valores iguais ou
melhores que o encontrado por acaso, dado o tamanho do banco de dados.
A qualidade experimental da estrutura tridimensional da proteína-molde
também é outro fator importante. A preferência é para estruturas resolvidas
de alta qualidade, com resolução menor ou igual a 2 Å, fator R menor de 20%,
e em caso de enzimas, estruturas complexadas com o substrato. Todos esses
fatores podem garantir uma melhor confiabilidade no modelo que será
construído.
i) Busque a sequência de sua proteína-alvo:
A sequência pode ser encontrada em bancos de dados, como o UniProt e

Genbank. Usaremos o UniProt nessa etapa. Entre no site e digite o nome da
sua proteína no local de busca, em seguida escolha o “Entry” (conhecido
como ID, ou identificador) que melhor represente sua proteína, vá em
“Sequence” e baixe o formato fasta. Essa etapa só é necessária quando não
se tem a sequência da proteína-alvo. Em casos em que se tem o
sequenciamento da proteína inicia-se pela etapa de busca do molde.
Acesso ao UniProt: www.uniprot.org/uniprot/
Como exemplo será apresentado a modelagem da enzima Acetolactato

sintase (ALS), importante para síntese de aminoácidos de cadeia ramificada
em organismos vegetais. A sequência de ALS de Arabidopsis thaliana está
disponível no Uniprot (ID P17597) e foi usada em todos os passos seguintes.
Portanto, a sequência de interesse, de acordo com o arquivo FASTA do
Uniprot, é:

>sp|P17597|ILVB_ARATH Acetolactate synthase
MAAATTTTTTSSSISFSTKPSPSSSKSPLPISRFSLPFSLNPNKSSSSSRRRGIKSSSPS
SISAVLNTTTNVTTTPSPTKPTKPETFISRFAPDQPRKGADILVEALERQGVETVFAYPG
GASMEIHQALTRSSSIRNVLPRHEQGGVFAAEGYARSSGKPGICIATSGPGATNLVSGLA
DALLDSVPLVAITGQVPRRMIGTDAFQETPIVEVTRSITKHNYLVMDVEDIPRIIEEAFF
LATSGRPGPVLVDVPKDIQQQLAIPNWEQAMRLPGYMSRMPKPPEDSHLEQIVRLISESK
KPVLYVGGGCLNSSDELGRFVELTGIPVASTLMGLGSYPCDDELSLHMLGMHGTVYANYA
VEHSDLLLAFGVRFDDRVTGKLEAFASRAKIVHIDIDSAEIGKNKTPHVSVCGDVKLALQ
GMNKVLENRAEELKLDFGVWRNELNVQKQKFPLSFKTFGEAIPPQYAIKVLDELTDGKAI
ISTGVGQHQMWAAQFYNYKKPRQWLSSGGLGAMGFGLPAAIGASVANPDAIVVDIDGDGS
FIMNVQELATIRVENLPVKVLLLNNQHLGMVMQWEDRFYKANRAHTFLGDPAQEDEIFPN
MLLFAAACGIPAARVTKKADLREAIQTMLDTPGPYLLDVICPHQEHVLPMIPSGGTFNDV
ii) Busque o molde:
O molde pode ser encontrado no banco de dados PDB (Protein Data Bank).
Para isso utilizaremos o servidor Web BLAST [17], escolhendo a opção Protein
BLAST, e buscaremos pela estrutura onde sua sequência tem identidade >25%,
melhor resolução cristalográfica (quanto menor melhor), melhor cobertura e
o E-value baixo (quanto mais próximo de 0, mais chances de ser significativa
a correspondência, ou seja, não aconteceu por acaso) [5,22].
Quando não se encontra um modelo que satisfaça essas exigências, é

necessário aplicar outras abordagens como threading ou modelagem ab
initio.
Acesso ao BLAST: blast.ncbi.nlm.nih.gov/Blast.cgi
Faça a upload do arquivo fasta com a sequência de interesse, a qual deseja

modelar, ou copie e cole em “Enter accession number(s), gi(s), or FASTA
sequence(s)”. Na opção “Database” escolha “PROTEIN DATA BANK proteins
(pdb)” e depois clique em BLAST (Figura 4).
Figura 4. Página do BLASTp para busca de um molde.

Analise os valores de identidade (Per Ident), cobertura (Query Cover) e E-

value (Figura 5) para escolher o melhor molde e buscar na base de dados do
PDB. O código PDB se encontra na coluna Accession. Nesse exemplo, os três
primeiros resultados são muito parecidos, diferindo muito pouco na
identidade. Quando vamos na base de dados do PDB e verificamos os dois
primeiros da lista, que possuem alta identidade, alta cobertura e baixo E-
value, percebemos que o primeiro tem uma resolução melhor, mas o
interesse está em enzimas que foram resolvidas com um ligante em
específico. E este é o caso do segundo da lista. Possui uma resolução
razoável, alta identidade, alta cobertura, baixo E-value e contém o ligante
desejado. A existência do ligante pode auxiliar no uso de outras técnicas
computacionais, como o atracamento molecular, já que essa estrutura pode
estar na conformação necessária para ocorrer a ligação entre proteína e
ligante.
Figura 5. Resultado do BLAST para a seleção do molde.
Portanto, escolhemos como molde a estrutura de código PDB 3E9Y [23],

também uma ALS de A. thaliana. Com o código escolhido deve-se ir ao banco
de dados Protein Data Bank e digitar o código PDB do molde selecionado
(Figura 6).
Figura 6. Página da base de dados PDB para busca da estrutura

3D do molde. Acesso PDB: https://www.rcsb.org/
E, a seguir, baixar o arquivo PDB (Figura 7).
Figura 7. Página do código PDB associado ao molde. O arquivo

pode ser baixado na guia Download Files no formato PDB ou
mmCIF.
2. Alinhamento das sequências do molde e do alvo

O alinhamento permite encontrar correspondência entre resíduos
estruturalmente equivalentes levando em conta suas posições nas
sequenciais. Com o alinhamento é possível distinguir entre regiões
estruturalmente conservadas e variáveis [24]. O MODELLER aceita como
entrada alinhamentos de outros programas como por exemplo BLAST [17] e
CLUSTAL [25], contanto que esteja no formato correto. Porém, o MODELLER
possui sua própria rotina de alinhamento, produzindo os arquivos necessários
de maneira eficiente.
Para a etapa de alinhamento, três arquivos são necessários (todos os

arquivos devem estar no mesmo diretório):
i) Arquivo da sequência da proteína a ser modelada em formato PIR.
O MODELLER utiliza o formato PIR, que é parecido com o FASTA baixado na

busca da sequência do alvo, mais com um cabeçalho característico do
formato. Vá até o arquivo FASTA baixado e insira o novo cabeçalho:
> P1; nome da proteína-alvo

sequence: nome da proteína-alvo::::::::
Após a sequência, no final do arquivo deve-se inserir um ‘*’ e salvar como

“.txt” (Figura 8). O nome dado para a proteína-alvo não deve ser alterado nos
próximos passos.

Figura 8. Arquivo com a sequência do alvo em formato PIR.
ii) Arquivo PDB do molde.
O MODELLER aceita o formato mmCIF, basta fazer o download do mesmo no

passo de busca do molde (Figura 7).
iii) Script de alinhamento em python.
Digite o script abaixo em um editor de texto, substitua o nome dos arquivos

(em negrito) pelo nome dos seus arquivos e salve como “ alinhar.py ”.
1 # Importando o modeller
2
3 from modeller import *
4
5 # Importando a classe automodel
6
7 from modeller.automodel import *
8
9 # Novo ambiente para o modeller
10
11 env = environ()
12
13 # Novo ambiente para o alinhamento
14
15 aln = alignment(env)
16
17 # Modelo alvo. File= ID do PDB molde.
18
19 # Model_segment= Cadeia usada do molde
20
21 md1 = model(env, file='3e9y', model_segment=('FIRST:A','LAST:A'))
22
23 # Alinhamento.
24
25 # Align_codes= PDB do molde e cadeia.
26
27 # Atom_files= Nome do arquivo PDB do molde
28

29 aln.append_model(md1, align_codes='3e9yA', atom_files='3e9y.pdb')

30
31 # Fazer o alinhamento.
32
33 # File= arquivo com sequência do alvo.
34
35 # Aling_codes= ID do alvo.
36
37 aln.append(file='ahas.txt', align_codes='p17597')
38
39 # Alinhamento de sequencias
40
41 aln.align2d()
42
43 # Arquivos de alinhamento formato PIR

44
45 aln.write(file='ahas_3e9y.ali', alignment_format='PIR')
46
47 # Arquivos de alinhamento formato PAP

48
49 aln.write(file='ahas_3e9y.pap', alignment_format='PAP')
Vá ao terminal de linhas de comando, navegue até o diretório onde os

arquivos se encontram e digite (o $ representa o prompt do terminal e não
deve ser digitado):
$ python alinhar.py
No caso do Windows, salve os arquivos dentro de um diretório na pasta do

MODELLER (geralmente estará nos arquivos de programa do disco c:), busque
por modeller no local de busca do Windows e abra o arquivo MODELLER. Um
terminal será aberto. Vá até a pasta onde estão os arquivos com o comando
“ cd ” e digite “ python alinhar.py ”.
Os arquivos gerados serão “ .ali ” (Figura 9) e “ .pap ” (Figura 10). O primeiro

será usado para a etapa de modelagem e o segundo contém os resíduos
conservados.
Figura 9. Arquivo com o alinhamento gerado em formato .ali. A

falta de resíduos (missing residues) nas posições

correspondentes entre as sequências é assinada com o caractere
(-), chamado de gap.
Figura 10. Arquivo com o alinhamento gerado em

formato .pap, mostrando os resíduos conservados
entre as sequências com *.
3. Construção do modelo
Para gerar cada modelo, o MODELLER utiliza a cadeia principal da estrutura
molde e a otimiza em relação da sequência alvo, aplicando um grau de
aleatoriedade nas coordenadas. Essas coordenadas são otimizadas através
da busca pelo mínimo de energia das funções objetivo do MODELLER. Como
encontrar o mínimo global de energia através de uma função objetivo não é
garantido, recomenda-se repetir o procedimento de construção do modelo
várias vezes. Com a aleatoriedade embutida no procedimento modelos
diferentes são gerados a cada rodada, aumentando a amostragem de
conformações de modelos gerados. Considere a construção de algumas
dezenas a centenas de modelos, para então selecionar o mais adequado.
Porém, a tendência na geração de muitos modelos é que esses se
aproximem em conformação e energia.
Para essa etapa três arquivos são necessários:

1. Arquivo de alinhamento gerado na etapa anterior (formato “.ali”).
2. Arquivo PDB do molde.
3. Script do MODELLER de construção de modelos em Python, que será

executado como o anterior. Substitua o nome dos arquivos (negrito) pelo
nome dos seus arquivos e salve como “gerar_modelo.py”. O número de
modelos será indicado nas 3 últimas linhas do código.
1 # Importando o modeller
2
3 from modeller import *
4
5 # Importando a classe automodel
6
7 from modeller.automodel import *
8
9
10 # Novo ambiente para o modeller
11
12 env = environ()
13
14
15 a = automodel(
16 env,
17 alnfile='ahas_3e9y.ali',
18 knowns= '3e9yA',
19 sequence='p17597',
20 assess_methods=(
21 assess.DOPE,
22 assess.GA341
23 )
24 )
25
26 # Começar no modelo 1
27
28 a.starting_model = 1
29
30 # Terminar no modelo 5
31
32 a.ending_model = 5
33
34
35 # Construir os modelos
36
37 a.make()
Vá ao terminal de linhas de comando, navegue até o diretório onde os

arquivos se encontram e digite:
$ python gerar_modelo.py >&1 | tee genmodelo.log
A inserção de “ >&1 | tee genmodelo.log ” no comando é apenas para

garantir a criação de um arquivo de registro com todas as informações da
geração dos modelos. Ao finalizar, o script gera cinco modelos
tridimensionais para ser avaliados (Figura 11). Os modelos podem ser

visualizados por qualquer programa que leia o formato PDB, como o PyMOL. O
arquivo de log também mostra as pontuações de cada modelo.
Figura 11. Final do arquivo .log mostrando informações sobre os

modelos construídos. Os nomes dos modelos se encontram na
primeira linha, seguida das pontuções.
4. Avaliação do modelo
Após a construção de modelos para a proteína-alvo é necessário verificar se
existem possíveis erros, como por exemplo erros no alinhamento ou escolha
errada do molde tridimensional usado. Vale ressaltar que modelos
construídos por métodos computacionais sempre serão passíveis de erros. A
etapa de avaliação deve conduzir a bons modelos com base na magnitude
dos erros [26].
A escolha do “melhor” modelo (ou “melhores” modelos) pode ser feita de

várias maneiras. Podemos escolher o melhor modelo a partir do menor valor
da função de energia do MODELLER (molpdf) ou através do menor valor de
DOPE score (Discrete Optimized Protein Energy) (Figura 11). Neste exemplo
usaremos o DOPE score e o modelo selecionado com menor valor é o de
número quatro ( p17597.B99990004.pdb ). Porém, pode-se selecionar mais de
um modelo para avaliação de acordo com os mais bem ranqueados pelo
MODELLER.
Avaliação do modelo pelo servidor SAVES
Para essa etapa de avaliação do modelo, usa-se o arquivo pdb do modelo

escolhido para submissão ao servidor web SAVES. O SAVES concentra vários
programas que avaliam pontos específicos da estrutura de forma a dar mais
confiabilidade ao modelo.
Acesso ao SAVES: saves.mbi.ucla.edu/

Escolha as opções de verificação a partir do PROCHECK (avalia quanto à

qualidade estereoquímica), WHATCHECK (qualidade dos contatos atômicos
de todos os átomos de cada resíduo) e VERIFY 3D (compatibilidade do
modelo tridimensional com sua estrutura primária).
Os resultados apresentados pelo SAVES aqui são para o modelo de ALS com o
menor valor de pontuação DOPE ( p17597.B99990004.pdb ). O gráfico do
VERIFY 3D (Figura 12) mostra que menos de 80% dos resíduos estão em
ambientes químicos confiáveis. Para essa interpretação é atribuído uma
pontuação para cada resíduo referente a base de dados de estrutura do PDB.
Como padrão do programa, para que um modelo seja aceito, ou seja, seja
confiável, mais de 80% dos resíduos devem ser aceitos.
Figura 12. Gráfico de saída VERIFY 3D.
Os resultados do PROCHECK, ilustrado pelo gráfico de Ramachandran (Figura

13), mostram que o resíduo PHE 87 não se encontra em uma região favorável.
Figura 13. Gráfico de Ramachandran gerado pelo Procheck.
Porém, os resultados estatísticos do Ramachandran demonstram que 92,4%

dos resíduos se encontram em regiões favoráveis (Figura 14). Portanto, deve-
se observar na estrutura tridimensional em qual região estrutural ele se
encontra. Por exemplo, se o resíduo se encontra em uma região flexível como
uma região de alça, o MODELLER pode não ter encontrado uma conformação

favorável para esse resíduo. Regiões de loop são as mais difíceis de serem
modeladas e precisam de maior atenção.
Figura 14. Resultados estatísticos do Ramachandran gerado pelo

PROCHECK.
Para analisar este resíduo utilizou-se um programa de visualização

molecular. Utilizando o PyMOL [27] (Figura 15) podemos confirmar que o
resíduo se encontra no final de um loop, uma região desordenada que não
participa de nenhuma interação com a proteína. Essa região não foi bem
alinhada ao molde, por se tratar de resíduos inexistentes no molde e
presentes apenas na sequência do alvo. Esses resíduos correspondem a uma
região de peptídeo sinal. Naturalmente essa proteína tem sua função após
ser transferida ao cloroplasto, perdendo o peptídeo sinal.
Figura 15. Visualização em cartoon da proteína modelada. Em vermelho o resíduo PHE 87.
Para correção, editou-se manualmente o alinhamento usado para

construção do modelo. Retirou-se os 87 primeiros aminoácidos e o script de
modelagem foi executado novamente (Figura 16).

Figura 16. Resíduos que foram retirados do alinhamento. Esses

resíduos correspondem a grande inserção de gaps (-) no
alinhamento. Esses gaps iniciais foram retirados da sequência
molde, portanto, ambas sequencias começam com FISR. A
retirada dessa região faz com que identidade e cobertura entre
as sequências sejam maiores.
Após executar os passos 2 e 3 novamente, o melhor modelo foi selecionado

mais uma vez por seu valor de DOPE e submetido ao servidor SAVES. Para essa
nova estrutura, os resultados do VERIFY 3D foram mais favoráveis e
demonstram que o modelo gerado é confiável com 93,66% dos resíduos em
ambientes químicos confiáveis (Figura 17).
Figura 17. Gráfico de saída VERIFY 3D do novo modelo gerado após a edição do
alinhamento.
Além disso, o novo gráfico de Ramachandran apresenta 94,3% dos resíduos

em regiões favoráveis (Figura 18).

Figura 18. Gráfico de Ramachandran gerado pelo PROCHECK

para o novo modelo.
Para finalizar a avaliação, realizou-se alinhamento estrutural entre a

proteína-molde e o modelo construído através da ferramenta PyMOL (Figura
19). A inspeção visual dessas estruturas mostra apenas pequenas variações
na estrutura secundária, correspondendo bem à conservação dos resíduos,
vista no alinhamento. Quando calculado o desvio entre ambas, o valor de
Root Mean Square deviation (RMSD) foi de 0,133 Å entre os carbonos-alfa das
estruturas. Quanto menor esse valor, mais próximas são as estruturas entre si,
demonstrando que a variação dos desvios médios dos átomos em relação
ao molde foi baixa.
Figura 19. Alinhamento estrutural do molde e modelo construído. RMSD 0.133. Proteína-
molde em azul-claro e proteína-modelada em azul-escuro.
O exemplo que apresentamos aqui gerou um possível modelo para uma

sequência alvo inicial de forma simplificada pelo MODELLER. Exemplos mais
avançados, que utilizam parâmetros mais rebuscados como refinamento de
loops e estrutural por dinâmica molecular, se encontram no manual do
MODELLER e devem ser explorados.

Modelagem de proteínas usando SWISS-MODEL
Nesta seção, será abordado a ferramenta SWISS-MODEL. Diferentemente do

MODELLER, SWISS-MODEL é um servidor web que possui interface gráfica. Seu
algoritmo também é diferente, pois utiliza regiões estruturais conservadas
para construção dos modelos pelo método de união dos corpos rígidos.
Porém, o SWISS-MODEL também parte do princípio de que proteínas
homólogas compartilham regiões estruturalmente conservadas, como α-
hélices e folhas betas, tornando-se um programa de modelagem
comparativa.
O modelo é então construído a partir das regiões conservadas do molde que,

em seguida, são alinhadas com a predição estrutural do alvo. Para isso, a
média das posições assumidas pelos carbonos alfa das regiões conservadas
estruturalmente são calculadas e usadas para o encaixe das regiões que
faltam. As regiões não conservadas, que possivelmente conectam as regiões
conservadas (possíveis loops), são como variáveis. Essas regiões são
inseridas no modelo através de informações de um banco de dados de
estruturas, classificadas de acordo com o tipo de resíduo e tipo de estrutura
secundaria que conectam. As cadeias laterais dos aminoácidos são inseridas
através da busca de bibliotecas de rotâmeros [22].
O modelo no SWISS-MODEL é gerado de forma automática com mínima

interferência do usuário. Com apenas a sequência do alvo em mãos, o
modelo é gerado e avaliado pelo próprio programa.
Acesso ao SWISS-MODEL: swissmodel.expasy.org/
Usando o SWISS-MODEL para modelagem

comparativa
Etapa 1 – Seleção da proteína-molde

A sequência da proteína-alvo deve ser encontrada como nos passos

referentes para o MODELLER, onde a sequência primária de ALS de Arabidopsis
thaliana (Uniprot ID: P17597) foi encontrada e usada para a modelagem. Na
página inicial do SWISS-MODEL, deve-se inserir a sequência do alvo e clicar
em “Search For Template” (Figura 20). A opção “Build Model” também pode
ser usada, mas a escolha do molde, em geral, é feita pelo programa de forma
automática.
Figura 20. Página do SWISS-MODEL para busca de um molde.
Deve-se selecionar o melhor molde. Critérios de seleção da estrutura usada

como referência se mantem iguais aos usados nos passos referentes ao
MODELLER. Prestando atenção no valor de identidade (>25%) entre as
sequências, melhor cobertura, E-value baixo, e melhor resolução
cristalográfica (quanto menor melhor). Portanto, escolhemos como molde a
estrutura de código PDB 3E9Y [23] (Figura 21).
Figura 21. Resultado do Swiss-Model para a busca do molde a

partir da sequência alvo.
Etapa 2- Alinhamento e construção do modelo
O SWISS-MODEL já trabalha o alinhamento internamente. Precisa-se apenas

selecionar o modelo de acordo com a lista de opções dada (Figura 21) e o

servidor busca o arquivo PDB. O modelo então é construído com base no

molde e alinhamento após clicar em “Build Models” (Figura 21). Podemos
perceber que o SWISS-MODEL elimina automaticamente a região do peptídeo
sinal, não permitindo a inserção do mesmo.
Etapa 3 – Avaliação do modelo

O SWISS-MODEL possui as próprias ferramentas de avaliação. Clique em
“Structure Assessment” para avaliar o modelo (Figura 22).
Figura 22. Avaliação do modelo construído.
Para avaliar o modelo deve-se atentar para os valores de QMEAN (Qualitative

Model Energy ANalysis) e GMQE (Global Model Quality Estimation). O QMEAN é
um estimador conhecido como z-score. Quando o valor z está próximo de 0
significa que o modelo é considerado confiável e, portanto, existe uma boa
concordância entre o modelo e estruturas experimentais de tamanho
semelhantes. As propriedades geométricas oferecem uma estimativa de
qualidade absoluta global. Já o GMQE, se encontra em uma faixa de 0 a 1.
Quanto mais alto mais preciso é o modelo em relação ao alinhamento alvo-
modelo e a cobertura do alvo. O SWISS-MODEL também fornece um gráfico de
Ramachandran interativo na página web (Figura 23). A estatística do gráfico
de Ramachandran é de 96,72% dos resíduos em regiões favoráveis. Após o
download do modelo, uma comparação visual entre as estruturas molde e
modelo pode ser feita por meio de alinhamento estrutural utilizando a
ferramenta PyMOL.

Figura 23. Gráfico de Ramachandran disponibilizado pelo SWISS-

MODEL em relação ao modelo gerado.
Threading
O threading é um método de modelagem usado para modelar estruturas que
possuem enovelamento similar a proteínas de estruturas conhecidas, porém
compartilham baixo grau de similaridade. No threading, a sequência é
fragmentada na busca por homólogos estruturais, explorando muitos
alinhamentos, ao invés do alinhamento da sequência inteira de aminoácidos
[28]. Portanto, essa metodologia é empregada quando existem modelos de
baixa identidade que cobrem regiões diferentes da sequência alvo [29].
A modelagem threading baseia-se no reconhecimento das características da

sequência utilizada, para isso deve-se realizar um alinhamento local que
encontre moldes, estruturas disponíveis no PDB, que cubram determinadas
regiões. Em seguida, uma abordagem de modelagem comparativa para
cada molde selecionado é realizada, criando assim estruturas secundárias
para cada região. É importante ressaltar que fatores como a qualidade das
estruturas selecionadas e a identificação de moldes que cubram todos os
trechos da sequência têm influência direta na qualidade dos modelos finais
gerados [29].

Tutorial I-TASSER
Modelagem de proteínas com I-TASSER

Um dos programas mais populares de Threading é o I-TASSER [28,30], que foi
premiado diversas vezes na competição CASP (Critical Assessment of protein
Structure Prediction). O I-TASSER (Figura 24) está disponível como um servidor
web para predição automatizada de estrutura de proteínas e suas
respectivas funções. A identificação dos moldes a partir da segmentação da
sequência de entrada é realizada usando o LOMETS [31]. O LOMETS é um
meta-servidor de segmentação local, compilando vários programas de
threading, para previsões rápidas e automatizadas de estruturas terciárias de
proteínas e restrições espaciais. As regiões onde moldes não foram
encontrados são modeladas utilizando a metodologia ab initio, realizando
simulações baseadas no método de Monte Carlo. As estruturas são
agrupadas e os modelos são selecionados considerando a menor energia. A
última etapa realizada pelo servidor consiste na busca das possíveis funções
da sequência alvo na biblioteca BioLip [32].
Figura 24. Página inicial do servidor web I-TASSER.
Acesso ao I-TASSER: zhanglab.ccmb.med.umich.edu/I-TASSER/

Estudo de caso: modelagem da sequência do peptídeo da

glândula salivar de Ixodes scapularis
Como exemplo foi realizada a modelagem de um peptídeo putativo
secretado da glândula salivar de Ixodes scapularis, a sequência foi obtida do
Genbank, ID AAV80775.1. O arquivo de entrada exigido pelo servidor é a
sequência da proteína que pode ser inserida no local indicado, ou pode ser
realizado a upload do arquivo fasta (Figura 25). Para submeter o trabalho é
necessário realizar a criação de uma conta, criando um usuário e uma senha.
O e-mail cadastrado deve ser institucional (ou seja, um e-mail registrado em
um domínio pertencente a uma universidade ou instituto de pesquisa).
Figura 25. Página de submissão de tarefa ao servidor web I-

TASSER.
Apesar de ser um servidor automatizado, o I-TASSER apresenta opções

adicionais (Figura 26) que podem ser executadas de forma a personalizar a
predição do modelo, são elas:
Figura 26. Opções adicionais de personalização da predição

estrutural com o servidor web I-TASSER.

Opção I – Se os usuários souberem alguma informação sobre a estrutura da

proteína a ser modelada, essa informação pode ser convenientemente
inserida nessa opção. A inserção de informações pode melhorar a qualidade
da predição estrutural e funcional. O servidor I-TASSER aceita atualmente dois
tipos de restrições especificadas pelo usuário: arquivos com restrições de
contato e distância; e estruturas molde com e sem alinhamento. O formato
do arquivo texto para restrições de distância (Figura 27) consiste em linhas
que apresentam a palavra DIST, o número e tipo de átomo do primeiro
resíduo, número e tipo do átomo do segundo resíduos, e a distância entre
eles em ångström. Para restrições de contato, as linhas contêm a palavra
CONTACT e o número dos resíduos em contato (Figura 27). Para especificar
estruturas-molde, os usuários podem atribuir o código PDB no formato
PDBID:Chain, inserir informações tridimensionais (arquivo similar ao PDB), ou
utilizar alinhamento no formato FASTA com informações estruturais anexadas.
Figura 27. Exemplo de arquivo texto das restrições de contato

e distância.
Opção II – É possível excluir moldes parecidos à proteína-alvo presentes no

banco de dados do servidor, inserindo um valor de corte. Por exemplo, ao
digitar “60%”, o I-TASSER excluirá automaticamente todos os modelos que
possuem uma identidade de sequência maior que 60%. O corte mínimo é
definido em 25%, ou seja, todos os valores abaixo de 25% retornarão como
25%. Porém, a exclusão de moldes com identidade de sequência diminuirá a
qualidade da modelagem. Portanto, essa opção foi projetada apenas para
alguns fins especiais. Ainda nessa opção, moldes específicos podem ser
excluídos através de uma lista de estruturas no formato PDBID:Chain.
Opção III – Caso algum conhecimento sobre a estrutura secundária da

proteína a ser modelada exista, como por exemplo, informações extraídas de
uma predição de estrutura secundária, um arquivo de texto (Figura 28) com
essas informações pode ser inserido. O I-TASSER tentará gerar os modelos
seguindo a estrutura secundária especificada no arquivo. O arquivo consiste
em uma coluna com o número do resíduo, uma segunda coluna com o
símbolo do resíduo, e uma terceira coluna com o tipo de estrutura

secundária, onde S corresponde às folhas-beta, H às hélices-alfa, e C às

alças (loops).
Figura 28. Exemplo de arquivo texto para a especificação

de estrutura secundária.
A sequência do peptídeo da glândula salivar de Ixodes scapularis foi

submetida sem a utilização de nenhuma restrição. Após a submissão, o
usuário é notificado por e-mail assim que o trabalho for finalizado. Os
resultados ficam disponíveis no servidor durante um período de dois meses. A
modelagem leva de um a dois dias para processar a depender da fila de
trabalhos submetidos no servidor web. Na figura 29, podemos visualizar os
resultados obtidos para a sequência submetida. Nessa página, consta o
resultado da predição de estrutura secundária e o conf.score que demonstra
a qualidade da predição para cada resíduo em relação a sequência alvo.
Quanto maior o valor, maior a confiabilidade da predição.
Figura 29. Página de resultado do I-TASSER para o exemplo

submetido.
A predição de acessibilidade ao solvente de cada resíduo também é feita.

Nesse caso, I-TASSER classifica os resíduos como acessíveis ou inacessíveis

ao solvente (Figura 30). Valores próximos a zero indicam que os resíduos

possivelmente estão em posições internas na proteína, enquanto valores
próximos a nove indicam resíduos em posições mais expostas ao solvente.
Além disso, o fator B, valor que indica a extensão da mobilidade térmica
inerente de resíduos ou átomos nas proteínas, também é predito para o
modelo (Figura 31). Resíduos com valores negativos no gráfico de fator B
mostram ser mais estáveis na estrutura.
Figura 30. Resultados da predição de acessibilidade ao solvente

dos resíduos e o fator B em relação a toda a estrutura do
modelo criado.
O alinhamento dos dez primeiros moldes também é disponibilizado na

página de resultados (Figura 31). Espera-se encontrar uma maior
conservação nos moldes exibidos, o que poderá dar uma maior qualidade ao
modelo final. A avaliação do alinhamento entre as sequências molde e alvo
pode ser feita pelo parâmetro Norm. Z-score. Valores de Norm. Z-score acima
de um revelam um bom alinhamento entre sequências. Dependendo desses
valores, I-TASSER qualifica a proteína-alvo como fácil ou difícil de modelar.
Além disso, tanto os alinhamentos quanto as estruturas-molde podem ser
baixadas individualmente.
Figura 31. Resultado do alinhamento com os dez primeiros

moldes encontrados pelo I-TASSER usando LOMETS e a base de
dados de PDB.

Por fim, cinco modelos construídos mais bem ranqueados são apresentados
(Figura 32). Além da opção de download dos modelos gerados, informações,
como precisão global (C-score), TM-score e RMSD, ficam disponíveis para
melhor qualificar os modelos. Porém, o I-TASSER relata apenas a previsão de
TM-score e RMSD para o primeiro modelo, uma vez que a correlação entre C-
score e TM-score é fraca para modelos de classificação inferior.
O valor de C-score é listado para todos os modelos para servir como

referência. O C-score (precisão global estimada) possui uma faixa de valor
entre -5 e 2. Valores maiores que -1,5 indicam modelos que possuem uma
boa topologia global predita. Já o TM-score [33] é uma escala proposta para
medir a semelhança estrutural entre duas estruturas, nesse caso a estrutura
do molde e do modelo, que não depende do comprimento da proteína e não
é sensível a diferentes estruturações e orientações locais. Valores de TM-
score acima de 0,50 indicam um modelo na topologia correta, enquanto
valores de TM-score abaixo de 0,17 significam que a similaridade entre as
estruturas é aleatória. O RMSD se refere a sobreposição entre molde e modelo
gerado. Um valor alto de RMSD mostra que regiões específicas das proteínas
possuem estruturação e orientação desiguais. Se existente, o I-TASSER pode
ainda disponibilizar os possíveis ligantes, possíveis sítios ativos e possíveis
funções das estruturas modeladas.
Figura 32. Os cinco melhores modelos ranqueados de acordo

com as funções objetivas do I-TASSER.
Os modelos podem ainda ser avaliados usando métricas de avaliação para

modelagem comparativa. Porém, como se trata de um modelo construído a
partir de sequências de baixa identidade, sua qualidade deve ser
considerada baixa, logo tais modelos poderão receber pontuações baixas.
Métodos de modelagem independentes de

molde

Devido à grande lacuna entre o número de estruturas primárias e estruturas

tridimensionais resolvidas, uma quantidade significativa de dados de
sequência não compartilha identidade e similaridade com famílias de
proteínas conhecidas. Com isso, surge a necessidade de métodos que
predizem a estrutura com nenhuma ou mínima informação estrutural, os
chamados de métodos independentes de molde. Esse tipo de modelagem
baseia-se na suposição que todas as proteínas se enovelam para um estado
nativo ou para um conjunto de estados com o menor nível de energia
potencial, mínimo global [29,34]. Existem duas abordagens para essa
categoria, modelagem de novo e modelagem ab initio.
Apesar de serem tratadas como equivalentes na literatura, na prática os

algoritmos desses métodos diferem em suas aplicações. Na modelagem de
novo são usadas informações provenientes de bancos de estruturas
determinadas empiricamente, em forma de fragmentos estruturais sem
identidade com a sequência alvo, para orientar o estado enovelado do
modelo. Enquanto, métodos ab initio baseiam-se puramente nas leis da
Física, ou seja, primeiros princípios, para determinar as estruturas. Nas
abordagens ab initio o conhecimento estrutural de proteínas como a previsão
de ângulos de torção e inserção dos átomos são feitos através de métodos
matemáticos e estatísticos. Porém, ambas metodologias são
computacionalmente exigentes, limitando a modelar proteínas pequenas
(entre 100 e 200 aminoácidos). Além disso, para a escolha dos melhores
modelos, diferente do que é realizado na modelagem comparativa, é
necessário realizar a execução dos algoritmos muitas vezes. Dessa forma a
definição dos melhores modelos é feita inicialmente pela filtragem de vária
conformações a partir de um limiar de energia previamente definido.
Atualmente, as ferramentas de predição estrutural utilizam vários métodos na

construção do modelo, tornando-se ferramentas híbridas de modelagem. Por
exemplo, o servidor ROBETTA (robetta.bakerlab.org/) usa fragmentos de
estruturas PDB existentes, a fim de orientar a pesquisa em conjunto com
funções de energia, classificando-se então como um software de
modelagem de novo [34,35]. Porém, regiões da sequência sem equivalência
são construídas a partir de modelagem ab initio. Podemos dizer o mesmo do
programa QUARK (zhanglab.ccmb.med.umich.edu/QUARK/), pois sua
abordagem possui uma etapa de montagem de fragmentos, onde pequenos
fragmentos estruturais (1–20 resíduos retirados de estruturas PDB
conhecidas) são unidos para construir a estrutura final por Monte Carlo com
assistência de um campo de força [36].
Apesar da diferença na forma como os algoritmos de modelagem de novo e

ab initio são implementados, essas terminologias têm sido usadas na
literatura como sinônimos. Por isso, neste artigo utilizaremos tanto os termos
de novo quanto ab initio para indicar estratégias de modelagem sem o uso
de molde.

Tutorial ROBETTA
Modelagem de proteínas ab initio com ROBETTA

A seguir, vamos utilizar o servidor web ROBETTA (http://robetta.bakerlab.org)
para a modelagem de estruturas proteicas (Figura 33). O servidor utiliza a
implementação automatizada do programa ROSETTA
(https://www.rosettacommons.org/) no qual é possível realizar tanto
modelagem comparativa quanto ab initio. A metodologia ROSETTA baseia-se
em dividir a sequência em fragmentos de tamanho entre três e nove
aminoácidos. Os segmentos são extraídos da sequência de entrada e
comparados com segmentos de uma base de dados de estrutura de
proteínas, a partir de suas estruturas secundárias. Em seguida o espaço
conformacional é então pesquisado utilizando a metodologia de Monte Carlo,
que consiste em realizar um massivo número de simulações com
amostragem aleatória. Dessas simulações, um valor de energia é
estabelecido através do campo de força do programa [35,37].
Figura 33. Página inicial do servidor web ROBETTA.
Para cada sequência de destino são geradas 10.000 conformações,

futuramente agrupadas com base no RMSD de seus carbonos-alfa. Apenas
nove centroides, estruturas representativas de cada agrupamento, são
selecionados. Na última etapa, os modelos gerados são buscados no PDB

utilizando o Mammoth, um algoritmo estrutural que independe da sequência

para encontrar à sobreposição estrutural com maior cobertura. Essa
comparação tem o intuito de aumentar a confiabilidade do enovelamento do
modelo através de um valor representado pela função de confiança. Quanto
maior o valor de confiança, maior é a correspondência estrutural do modelo
com estruturas existentes [38].
Link de acesso ao ROBETTA: http://robetta.bakerlab.org
Para utilizar o ROBETTA é necessário criar uma conta gratuita (Figura 34).
Nesse processo é criada um usuário para login e uma senha, que serão
utilizados para acessar os trabalhos que forem submetidos e acompanhar o
status na fila de execução.
Figura 34. Página de registro e criação de login do ROBETTA.
Depois de criar login e senha, o usuário poderá submeter a sequência que

tem interesse em modelar. A entrada pode ser submetida inserindo a
sequência no local indicado ou fazendo um upload da sequência em formato
FASTA (Figura 35). O servidor realiza a modelagem comparativa e ab initio de
forma automática. Entretanto, é possível selecionar a opção CM only para
realizar apenas a modelagem comparativa. Ou ainda, selecionar a opção AB
only, que realiza apenas a modelagem ab initio. A opção predict domains
permite que os domínios da proteína sejam resolvidos separadamente,
porém isso implica em um maior tempo de execução. Quando nenhuma das
opções é selecionada, o programa tenta realizar a modelagem comparativa
primeiro e, caso não seja possível, a modelagem ab initio é executada.

Figura 35. Tela de submissão de sequência para a modelagem

do ROBETTA.
Na execução do ROBETTA como programa de modelagem comparativa, o

usuário pode inserir o código PDB do molde ou o arquivo do molde que deseja
usar. Restrições de ângulos ou distâncias entre dois átomos ou resíduos
podem ser inseridos para influenciar a função de energia utilizada. Também é
possível inserir um arquivo de fragmentos para serem utilizados na
modelagem ab initio.
Após realizar a submissão, é possível acompanhar a fila de execução e o

status da construção do modelo enviado clicando no menu superior ao lado
do seu nome de usuário e, em seguida, na opção “My queue”. Quando
finalizada a modelagem, o usuário receberá uma notificação via e-mail. O
tempo de espera varia, em média, entre dois e três dias, sem a opção predict
domains (ao selecionar essa opção o tempo de execução é estendido).
Estudo de caso: glicoproteína de superfície do SARS-COV-2

Como exemplo, a sequência da glicoproteína de superfície do SARS-COV-2
(Genbank ID: QIU81369.1) foi submetida a modelagem na ferramenta web
ROBETTA. Essa proteína apresenta 1261 resíduos de aminoácidos. Na Figura 36,
pode-se visualizar informações como a sequência alvo, parâmetro de
confiança (confidence) e o método utilizado para modelar a glicoproteína de
superfície do SARS-COV-2.

Figura 36. Página de resultado (parte superior) da construção de

modelos pelo ROBETTA.
O valor do parâmetro de confiança varia entre zero e um. Quanto mais

próximo de um, melhor é a qualidade dos modelos gerados. Valores mais
próximo de zero indicam que a qualidade dos modelos é baixa. Para o nosso
exemplo, a confiança obtida foi de 0,36, demonstrando uma qualidade
inferior à desejada.
Além disso, são apresentadas as previsão de estrutura secundária realizadas

por três ferramentas:
deepconcnf (raptorx.uchicago.edu/StructurePropertyPred/predict/);
psipred (bioinf.cs.ucl.ac.uk/psipred/);
spider3 (sparks-lab.org/server/spider3/).
onde H representa hélices-alfa, E representa folhas-beta, e o caractere “-“

representa regiões de alça.
É possível visualizar os cinco melhores modelos de estrutura (Figura 37), além

de um gráfico com a estimativa de erro em ångström para cada resíduo.
Com esse gráfico, é possível ver a variação das posições dos resíduos de
acordo com cada modelo. Variações muito grandes mostram a dificuldade
de modelar certas regiões. Os resultados podem ser baixados (a ferramenta
informa a data até quando esses resultados ficarão disponíveis no servidor).

Figura 37. Parte da página de resultados do servidor web

ROBETTA.
Referências bibliográficas
1. Wolynes, P.G. Evolution, Energy Landscapes and the Paradoxes of Protein
Folding. Biochimie 2015, 119, 218–230.
2. Schwede, T. Protein Modeling: What Happened to the “Protein Structure

Gap”? Structure 2013, 21, 1531–1540.
3. Carroni, M.; Saibil, H.R. Cryo Electron Microscopy to Determine the

Structure of Macromolecular Complexes. Methods (San Diego, Calif.) 2016, 95,
78–85, doi:10.1016/j.ymeth.2015.11.023.
4. Klebe, G. Experimental Methods of Structure Determination. In Drug

Design: Methodology, Concepts, and Mode-of-Action; Klebe, G., Ed.; Springer
Berlin Heidelberg: Berlin, Heidelberg, 2013; pp. 265–290 ISBN 978-3-642-17907-
5.
5. Berman, H.M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T.N.; Weissig, H.;
Shindyalov, I.N.; Bourne, P.E. The Protein Data Bank. Nucleic Acids Res. 2000, 28,
235–242.
6. Consortium, U. UniProt: A Worldwide Hub of Protein Knowledge. Nucleic

acids research 2019, 47, D506–D515.
7. Studer, G.; Tauriello, G.; Bienert, S.; Waterhouse, A.M.; Bertoni, M.; Bordoli,
L.; Schwede, T.; Lepore, R. Modeling of protein tertiary and quaternary
structures based on evolutionary information. In Computational Methods in
Protein Evolution; Springer, 2019; pp. 301–316.
8. Liu, H.; Chen, Q. Computational Protein Design for given Backbone:

Recent Progresses in General Method-Related Aspects. Current opinion in

structural biology 2016, 39, 89–95.
9. Haddad, Y.; Adam, V.; Heger, Z. Ten Quick Tips for Homology Modeling of
High-Resolution Protein 3D Structures. PLoS computational biology 2020, 16,
e1007449.
10. Kc, D.B. Recent Advances in Sequence-Based Protein Structure

Prediction. Briefings in bioinformatics 2017, 18, 1021–1032.
11. Patel, B.; Singh, V.; Patel, D. Structural Bioinformatics. In Essentials of

Bioinformatics, Volume I; Springer, 2019; pp. 169–199.
12. Browne, W.J.; North, A.C.T.; Phillips, D.C.; Brew, K.; Vanaman, T.C.; Hill, R.L. A
Possible Three-Dimensional Structure of Bovine α-Lactalbumin Based on That
of Hen’s Egg-White Lysozyme. Journal of molecular biology 1969, 42, 65–86.
13. Cavasotto, C.N.; Phatak, S.S. Homology Modeling in Drug Discovery:

Current Trends and Applications. Drug discovery today 2009, 14, 676–683.
14. Šali, A.; Blundell, T.L. Comparative Protein Modelling by Satisfaction of

Spatial Restraints. Journal of molecular biology 1993, 234, 779–815.
15. Ginalski, K. Comparative Modeling for Protein Structure Prediction.

Current opinion in structural biology 2006, 16, 172–177.
16. Baker, D.; Sali, A. Protein Structure Prediction and Structural Genomics.
Science 2001, 294, 93–96.
17. Altschul, S.F.; Gish, W.; Miller, W.; Myers, E.W.; Lipman, D.J. Basic Local
Alignment Search Tool. Journal of molecular biology 1990, 215, 403–410.
18. Schwede, T.; Kopp, J.; Guex, N.; Peitsch, M.C. SWISS-MODEL: An
Automated Protein Homology-Modeling Server. Nucleic acids research 2003,
31, 3381–3385.
19. Greer, J. Comparative Modeling Methods: Application to the Family of

the Mammalian Serine Proteases. Proteins: Structure, Function, and
Bioinformatics 1990, 7, 317–334.
20. Blundell, T.L.; Sibanda, B.L.; Sternberg, M.J.E.; Thornton, J.M. Knowledge-
Based Prediction of Protein Structures and the Design of Novel Molecules.
Nature 1987, 326, 347–352.
21. Wallner, B.; Elofsson, A. All Are Not Equal: A Benchmark of Different
Homology Modeling Programs. Protein Science 2005, 14, 1315–1327.

22. Waterhouse, A.; Bertoni, M.; Bienert, S.; Studer, G.; Tauriello, G.; Gumienny,
R.; Heer, F.T.; de Beer, T.A.P.; Rempfer, C.; Bordoli, L. SWISS-MODEL: Homology
Modelling of Protein Structures and Complexes. Nucleic acids research 2018,
46, W296–W303.
23. Wang, J.; Lee, P.K.; Dong, Y.; Pang, S.S.; Duggleby, R.G.; Li, Z.; Guddat, L.W.
Crystal Structures of Two Novel Sulfonylurea Herbicides in Complex with
Arabidopsis Thaliana Acetohydroxyacid Synthase. The FEBS journal 2009, 276,
1282–1290.
24. Santos Filho, O.A.; Alencastro, R.B. de Modelagem de Proteínas Por

Homologia. Química Nova 2003, 26, 253–259.
25. Higgins, D.G.; Sharp, P.M. Fast and Sensitive Multiple Sequence
Alignments on a Microcomputer. Bioinformatics 1989, 5, 151–153.
26. Xiang, Z. Advances in Homology Protein Structure Modeling. Current

Protein and Peptide Science 2006, 7, 217–227.
27. Schrödinger, L.L.C. The PyMOL Molecular Graphics System, Version 2.0
2020.
28. Zhang, Y. I‐TASSER: Fully Automated Protein Structure Prediction in

CASP8. Proteins: Structure, Function, and Bioinformatics 2009, 77, 100–113.
29. Verli, H. Bioinformática: Da Biologia à Flexibilidade Molecular. 2014.
30. Yang, J.; Zhang, Y. I-TASSER Server: New Development for Protein
Structure and Function Predictions. Nucleic acids research 2015, 43, W174–W181.
31. Wu, S.; Zhang, Y. LOMETS: A Local Meta-Threading-Server for Protein

Structure Prediction. Nucleic acids research 2007, 35, 3375–3382.
32. Yang, J.; Roy, A.; Zhang, Y. BioLiP: A Semi-Manually Curated Database for
Biologically Relevant Ligand–Protein Interactions. Nucleic acids research 2012,
41, D1096–D1103.
33. Zhang, Y.; Skolnick, J. Scoring Function for Automated Assessment of

Protein Structure Template Quality. Proteins: Structure, Function, and
Bioinformatics 2004, 57, 702–710.
34. Kim, D.E.; Chivian, D.; Baker, D. Protein Structure Prediction and Analysis
Using the Robetta Server. Nucleic acids research 2004, 32, W526–W531.
35. Song, Y.; DiMaio, F.; Wang, R.Y.-R.; Kim, D.; Miles, C.; Brunette, T.J.;
Thompson, J.; Baker, D. High-Resolution Comparative Modeling with
RosettaCM. Structure 2013, 21, 1735–1742.

36. Xu, D.; Zhang, Y. Ab Initio Protein Structure Assembly Using Continuous
Structure Fragments and Optimized Knowledge‐based Force Field. Proteins:
Structure, Function, and Bioinformatics 2012, 80, 1715–1735.
37. Bradley, P.; Chivian, D.; Meiler, J.; Misura, K.M.S.; Rohl, C.A.; Schief, W.R.;
Wedemeyer, W.J.; Schueler‐Furman, O.; Murphy, P.; Schonbrun, J. Rosetta
Predictions in CASP5: Successes, Failures, and Prospects for Complete
Automation. Proteins: Structure, Function, and Bioinformatics 2003, 53, 457–
468.
38. Chivian, D.; Kim, D.E.; Malmström, L.; Schonbrun, J.; Rohl, C.A.; Baker, D.
Prediction of CASP6 Structures Using Automated Robetta Protocols. Proteins:
Structure, Function, and Bioinformatics 2005, 61, 157–166.

09
Docagem molecular: em busca do encaixe

perfeito e acessível
By Lucianna Helene Santos
2 de julho de 2021
Docagem molecular: em busca do encaixe perfeito e acessível

Lucianna H. Santos
DOI: 10.51780/978-6-599-275326-09
D
ocagem molecular é um dos métodos mais populares da
modelagem molecular. Essa técnica computacional visa buscar
“o encaixe perfeito” entre duas moléculas simulando assim o
processo de reconhecimento molecular. A partir da predição de
orientação, forma-se um complexo que pode ser usado para estimar a
afinidade de ligação ou a força de associação entre as duas moléculas, e
com isso, priorizar moléculas que “melhor” se ligam a um parceiro.
O processo de descoberta de novos fármacos é longo, desafiador, cansativo

e caro. Esse processo abrange cientistas de diferentes áreas, várias etapas, e
um prazo que pode variar de 3 a 20 anos até o medicamento chegar ao
mercado. Em 2020, o custo médio para o desenvolvimento de um novo
medicamento foi estimado em até US$ 1,3 bilhão [1]. A razão para o alto custo
pode ser dividida em três: (i) descoberta da ligação entre alvo molecular e
doença confirmando sua importância para a medicina, (ii) ensaios clínicos, e
(iii) baixa taxa de sucesso. Em média, apenas 14% de todos os fármacos que
começam ensaios pré-clínicos chegam ao mercado [2]. Com isso, os custos
com medicamentos que “falharam” são recuperados com os lucros de
fármacos aprovados ou inovadores.
A etapa inicial em uma campanha de descobrimento de novos fármacos se

caracteriza pela identificação de um alvo molecular, ou vários, que exerçam
um papel fundamental no progresso de uma doença. A próxima etapa é
identificar moléculas candidatas que parem, inibam, ou revertam o progresso
da doença [3]. Para isso são feitas buscas por moléculas que mostrem
eficiência biológica em triagens experimentais (in vitro), de larga ou pequena
escala, entre múltiplos candidatos. Essas moléculas são chamadas de “hits”.
Os “hits” são consequentemente modificados quimicamente, visando
melhorar suas propriedades farmacêuticas, como toxicidade,
biodisponibilidade e custo-benefício [3]. Essas moléculas são então
chamadas de “leads”. Embora os métodos de triagem in vitro permitam a
expansão de amostragem do espaço químico, eles costumam apresentar um
alto número de falsos positivos e exigir muitos recursos materiais [4]. Além

disso, através de ensaios bioquímicos não é possível identificar detalhes

atômicos das interações entre alvo e ligante, sendo necessários métodos de
resolução estrutural como a cristalografia de raios X, a ressonância
magnética nuclear (RMN) e a crio-microscopia eletrônica (Cryo-EM). Esses
métodos também são demorados e financeiramente caros por necessitar
material, instrumentação específica e pessoas altamente treinadas. Portanto,
para auxiliar a triagem biológica, abordagens computacionais são
empregadas para priorizar “hits” baseados na conectividade, informações de
ligantes ativos, complementaridade geométrica, e predição de afinidade.
Entre os métodos computacionais, a docagem molecular (também

conhecida como atracamento, ancoragem, acoplamento ou docking
molecular) é a abordagem focada em simular o encaixe entre duas
moléculas. Em sua forma mais primitiva, a metodologia baseia-se no
conceito de “chave-fechadura” de Emil Fischer proposta em 1894, onde a
“chave” (substrato) se encaixa adequadamente no buraco (sítio ativo ou
cavidade de ligação) da “fechadura” (enzima ou receptor) para que a reação
bioquímica produtiva ocorra [5]. Portanto, chaves muito pequenas, muito
grandes ou com entalhes e ranhuras posicionadas incorretamente, não
cabem na fechadura. Porém, ao longo dos anos atualizações do conceito de
“chave-fechadura”, com por exemplo o conceito do “encaixe induzido”, que
pregam flexibilidade conformacional, também foram inseridos na
metodologia.
Figura 1: Esquema do conceito “Chave-Fechadura” da formação do complexo

enzima/substrato. Fonte: próprio autor.
Com isso, pode-se dizer que o conceito da docagem molecular é predizer a

orientação preferencial e as interações formadas entre uma molécula em
relação a outra, descrevendo de forma computacional o possível complexo
alvo-ligante que acontece no ambiente biológico. A metodologia de
docagem foi introduzida em 1982 por Kuntz e colaboradores [6] no artigo
intitulado “A Geometric Approach to Macromolecule-Ligand Interactions”.
Kuntz e colaboradores descrevem a ideia de que o reconhecimento
molecular entre moléculas, químico e geométrico, pode ser explorado através
de modelos tridimensionais tanto do ligante e quanto do alvo. Desde então, a
docagem molecular é empregada como uma maneira rápida de estimar o
modo de ligação de um determinado composto dentro de um alvo e para
prever a afinidade dessa ligação [7].

Tradicionalmente, os chamados alvos são macromoléculas (proteína,

DNA/RNA, peptídeos), enquanto os ligantes são pequenas moléculas
(fármacos, ligantes endógenos). Hoje em dia, métodos de docagem entre
macromoléculas também são comuns. Os experimentos computacionais de
docagem se iniciam após a obtenção das estruturas tridimensionais de alvo
e ligante. Estruturas dos alvos são obtidas de bancos de dados de estruturas
tridimensionais como o PDB [8] ou podem ser modeladas por modelagem
comparativa. Já as estruturas dos ligantes podem ser geradas através de
programas especializados ou de bancos de dados de ligantes como o ZINC
[9] e Pubchem [10]. Obtidos esses elementos, vários programas de docagem
disponíveis podem ser utilizados para ajustar o ligante em uma região
definida do alvo, normalmente, um sítio ativo ou uma cavidade de interesse.
Esses programas combinam e otimizam variáveis como complementaridade
estérica, hidrofóbica e eletrostática, e estimam a afinidade de ligação através
de uma função de pontuação [11].
Todos os programas possuem dois componentes essenciais: um bom

algoritmo de posicionamento e um sistema robusto de classificação ou
pontuação. Um protocolo de docagem requer extensa amostragem de
espaço conformacional do ligante para posicioná-lo no sítio de ligação de
uma proteína e, portanto, um grande número de potenciais orientações e
conformações de um ligante são geradas, as chamadas poses. Um bom
algoritmo de posicionamento amostra “todos” os modos de ligação possíveis,
enquanto o sistema de pontuação classifica todas as soluções e identifica o
“modo de ligação” mais provável do ligante [5]. Podemos pensar nesse
processo como um aluno de uma autoescola aprendendo a fazer baliza, onde
várias tentativas são feitas até o carro ficar perfeitamente alinhado na vaga
(Figura 2).
Apesar de soar simples, os processos de geração e ranqueamento de poses

são problemas complexos e desafiadores. Posicionar o ligante dentro do
espaço delimitado do sítio de ligação é um processo exaustivo de busca de
orientações e mapeamento das interações entre os resíduos e o ligante [5].
Normalmente, esse processo requer um equilíbrio entre tempo e acurácia, ou
seja, o maior número de soluções deve ser explorado mantendo um tempo
computacional eficiente, já que em um processo de triagem centenas a
milhões de ligantes são utilizados. Enquanto isso, a função de pontuação
deve ser suficientemente eficiente de forma a predizer a afinidade de ligação
entre alvo e ligante ou pelo menos conseguir pontuar o modo de ligação
mais próximo ao experimental possível [12]. Para manter esse equilíbrio,
simplificações são impostas, tanto nos algoritmos de busca para gerar os
modos de ligação das moléculas, quanto nas funções de pontuação pelos
programas de docagem.

Figura 2: O processo de amostragem na docagem pode ser pensada como uma pessoa
aprendendo a colocar o carro em uma vaga de estacionamento, onde várias tentativas são
feitas até o carro ficar perfeitamente alinhado na vaga, ganhando assim uma boa
pontuação.
Por exemplo, muitos programas não consideram moléculas de água ou a

presença de solvente na formação do complexo. A ausência de solvente é
compreensível por inserir muitas moléculas extremamente flexíveis, onde a
mudança de orientação de uma molécula apenas afeta as moléculas
vizinhas e a rede de interações entre elas [7]. Portanto, moléculas de águas,
normalmente, não são explicitamente consideradas, apesar de algumas
funções de pontuação avaliarem efeitos do solvente em seus termos. Outra
limitação do método é a falta de movimento, onde tipicamente apenas o
ligante é considerado flexível e o alvo rígido. Na vida real, o evento de ligação
entre alvo e ligante não é estático como na docagem, e sim dinâmico, com
ambos sofrendo múltiplos rearranjos. Recentemente, abordagens que
consideram o alvo flexível têm sido disponibilizadas, como docagem em
múltiplas conformações do alvo ou considerando como rotacionáveis as
cadeias laterais de resíduos selecionados, mas sacrificando a rapidez do
método (e não necessariamente ganhando robustez) [13]. O problema mais
difundido na metodologia talvez seja a simplificação das interações
(incluindo interações iônicas, van der Waals e de hidrogênio) entre alvo e
ligante, levando a estimativa de afinidade entre esses elementos a não ser
confiável. Os termos em uma função de pontuação são simples funções de
energia potencial, geralmente relacionadas a campos de força ou potenciais
estatísticos [7]. Com isso, efeitos de polarização ou a presença de prótons
não são considerados de forma a agilizar a abordagem.
Apesar de suas simplificações, a docagem molecular é uma das abordagens

mais populares dentro do processo de descoberta de novos fármacos com
auxílio de métodos computacionais. Portanto, mesmo com os desafios a
serem superados, a metodologia é amplamente utilizada na priorização de
compostos “hit” em uma triagem (virtual) de múltiplos compostos ou para
otimização de compostos “lead”. Podendo então explorar possibilidades e
hipóteses de forma rápida e com custo baixo quando comparados com
experimentos de bancada. Além disso, cada vez mais a metodologia tem sido
usada em conjunto com outros métodos, como dinâmica molecular [14],
aprendizado de máquina [15], mecânica quântica [16], entre outros. Tudo isso
tem permitido validar e melhorar a qualidade dos resultados, ao invés de
contar apenas com a docagem. Sem dúvida, as técnicas computacionais são
essenciais para os avanços científicos na compreensão da formação de

complexos. Porém, muito cuidado deve ser tomado ao assumir resultados

computacionais como “perfeitos”, em grande parte pelas várias
simplificações. Além disso, sempre que possível deve-se buscar o emprego
de técnicas experimentais em conjunto.
Referências
1. Wouters, O.J.; McKee, M.; Luyten, J. Estimated Research and Development
Investment Needed to Bring a New Medicine to Market, 2009-2018 [Published
March 3, 2020]. JAMA.
2. Wong, C.H.; Siah, K.W.; Lo, A.W. Estimation of Clinical Trial Success Rates and
Related Parameters. Biostatistics 2019, 20, 273–286,
doi:10.1093/biostatistics/kxx069.
3. Muntha, P. Drug Discovery & Development–A Review. Res. & Rev.: J. Pharm.
Pharmaceut. Sci 2016, 5, 135–142.
4. Yan, X.C.; Sanders, J.M.; Gao, Y.-D.; Tudor, M.; Haidle, A.M.; Klein, D.J.; Converso,
A.; Lesburg, C.A.; Zang, Y.; Wood, H.B. Augmenting Hit Identification by Virtual
Screening Techniques in Small Molecule Drug Discovery. Journal of chemical
information and modeling 2020, 60, 4144–4152.
5. Tripathi, A.; Bankaitis, V.A. Molecular Docking: From Lock and Key to
Combination Lock. Journal of molecular medicine and clinical applications
2017, 2.
6. Kuntz, I.D.; Blaney, J.M.; Oatley, S.J.; Langridge, R.; Ferrin, T.E. A Geometric
Approach to Macromolecule-Ligand Interactions. Journal of molecular biology
1982, 161, 269–288.
7. Pantsar, T.; Poso, A. Binding Affinity via Docking: Fact and Fiction. Molecules
2018, 23, 1899.
8. Berman, H.M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T.N.; Weissig, H.;
Shindyalov, I.N.; Bourne, P.E. The Protein Data Bank. Nucleic Acids Research
2000, 28, 235–242, doi:10.1093/nar/28.1.235.
9. Sterling, T.; Irwin, J.J. ZINC 15 – Ligand Discovery for Everyone. Journal of
Chemical Information and Modeling 2015, 55, 2324–2337,
doi:10.1021/acs.jcim.5b00559.
10. Kim, S.; Chen, J.; Cheng, T.; Gindulyte, A.; He, J.; He, S.; Li, Q.; Shoemaker, B.A.;
Thiessen, P.A.; Yu, B. PubChem 2019 Update: Improved Access to Chemical
Data. Nucleic acids research 2019, 47, D1102–D1109.

11. Sethi, A.; Joshi, K.; Sasikala, K.; Alvala, M. Molecular Docking in Modern Drug
Discovery: Principles and Recent Applications. Drug Discovery and
Development-New Advances 2019, 1–21.
12. Spyrakis, F.; Cozzini, P.; Kellogg, G.E. Docking and Scoring in Drug Discovery
Burger’s Medicinal Chemistry and Drug Discovery. 7th 2009.
13. Chen, Y.-C. Beware of Docking! Trends in pharmacological sciences 2015,

36, 78–95.
14. Santos, L.H.S.; Ferreira, R.S.; Caffarena, E.R. Integrating molecular docking
and molecular dynamics simulations. In Docking screens for drug discovery;
Springer, 2019; pp. 13–34.
15. Khamis, M.A.; Gomaa, W.; Ahmed, W.F. Machine Learning in Computational
Docking. Artificial intelligence in medicine 2015, 63, 135–152.
16. Adeniyi, A.A.; Soliman, M.E.S. Implementing QM in Docking Calculations: Is It

a Waste of Computational Time? Drug discovery today 2017, 22, 1216–1223.

10
Introdução à Triagem Virtual

By Joicy Xavier
4 de julho de 2021
Introdução à Triagem Virtual

Joana Linhares , Izadora Miranda , Welington Silva , Danilton Xavier , Joicymara
Xavier , Wandré Veloso
DOI: 10.51780/978-6-599-275326-10
A
Bioinformática é uma área que, em geral, trabalha com uma
grande quantidade de dados, provenientes das mais diversas
fontes. A Triagem Virtual se estabelece com o objetivo de
selecionar as melhores moléculas a partir de diversas técnicas
computacionais (in silico), visto que a pesquisa in vitro e in vivo são muito
mais demoradas e dependem de mais recursos financeiros do que as
técnicas in silico. Conforme a disponibilidade de dados, o pesquisador poderá
realizar uma Triagem Virtual baseada no alvo, caso ele seja conhecido, ou
baseado em ligante, analisando dados de uma grande quantidade de
moléculas e usando técnicas de comparação entre elas, sem necessidade de
usar dados do alvo. Há também a abordagem mista, quando há a junção das
técnicas que analisam tanto o alvo quanto os possíveis ligantes. Por fim, aqui
apresentamos uma pequena lista de ferramentas que auxiliam no processo
de Triagem Virtual de ligantes.
Triagem virtual de ligantes – Uma visão

geral
Na natureza, é comum que sejam encontrados dados na ordem de grandeza
dos milhões ou bilhões. No processo de descoberta de fármacos (drug
discovery) não é diferente. Assim, a Triagem virtual de ligantes (do inglês
Virtual Screening) é indispensável para auxiliar na descoberta de
medicamentos por intermédio da pesquisa de numerosas bibliotecas de
pequenas moléculas. Essa técnica tem com o objetivo identificar estruturas
com maior probabilidade de se ligar a um determinado alvo farmacológico,
geralmente um receptor ou enzima.
Nesse contexto, duas abordagens de triagem virtual são comumente

empregadas, como representado na Figura 1: as baseadas em alvos (Target-
Based Virtual Screening – TBVS) e as baseadas em ligantes (Ligand Based
Virtual Screening – LBVS) [1]. Na primeira, os algoritmos de triagem de
ligantes, dentre um conjunto de moléculas, dependem de informações sobre

os alvos para estimar as probabilidades de interação. Na segunda, não há

essa dependência. No LBVS, descritores envolvendo os próprios ligantes são
usados como atributos discriminantes nos algoritmos de seleção e
classificação, tendo como base de conhecimento um conjunto de ligantes
ativos e não ativos para determinado objetivo. Se há informação estrutural e
experimental sobre o alvo, técnicas TBVS tendem a ser mais usadas, mas não
necessariamente com mais sucesso [1]. Ademais, como já dito, nem sempre o
alvo é bem caracterizado ou conhecido. Nesses casos, técnicas LBVS podem
ser mais promissoras, ou mesmo ser a única opção.
Figura 1: Workflow das abordagens TBVS e LBVS. Autoria própria.
Target-based virtual screening

A abordagem Target-Based Virtual Screening (TBVS) se baseia no
conhecimento da estrutura da proteína-alvo ou receptor para a execução
dos processos para descoberta de ligantes.
O TBVS é interessante, especialmente, quando se tem acesso a estruturas de

boa qualidade e que tenham o sítio de ligação bem caracterizado (também
denominado binding site ou binding pocket) para a modelagem de um
ligante no próprio sítio ativo ou a realização de um estudo do pocket para
estimar, computacionalmente, a afinidade com possíveis ligantes. Tal

abordagem que realiza a modelagem do ligante no pocket pode ser

executada a partir de, por exemplo, complementaridade geométrica e físico-
química.
Outra possibilidade, que pode atuar de forma complementar a outras

técnicas, tem como principal fundamento o atracamento ou ancoramento
molecular, também conhecido como docking [2]. O docking fornece novos
parâmetros para a afinidade dos possíveis ligantes com a molécula-alvo [3].
Maiores detalhes a respeito do docking podem ser encontrados aqui [19].
Uma questão que vale ser destacada é que o docking, idealmente, deve ser
utilizado após uma prévia seleção das moléculas a serem envolvidas. O
docking é um procedimento que geralmente é mais demorado que a seleção
ou filtro das moléculas envolvidas. Se for utilizado em uma abordagem em
que os ligantes da molécula-alvo já sejam conhecidos, o docking pode
utilizar técnicas para seleção de moléculas com características semelhantes
ou diferentes às moléculas conhecidas (quando se pretende descobrir
moléculas com características novas). Sabe-se que moléculas similares
podem ter efeitos bioquímicos similares (MAGGIORA; SHANMUGASUNDARAM,
2011, apud [2]).
Então, se o objetivo do pesquisador for buscar moléculas comparando com

os ligantes já conhecidos, a técnica TBVS deve incorporar processos inerentes
às metodologias LBVS.
Ligand-based virtual screening

O Ligand-Based Virtual Screening (LBVS) tem como principal abordagem a
busca de novas moléculas candidatas a partir de ligantes já conhecidos. A
busca por novos ligantes pode ter como foco similaridades em suas
estruturas assim como nas atividades moleculares. Segundo Cavasotto
(2015), o conjunto de moléculas é dividido em dois grupos, sendo que o
primeiro contém moléculas com atividade molecular altamente similar,
porém, com baixa similaridade estrutural; e o segundo grupo, com baixa
similaridade na atividade molecular e alta similaridade estrutural [2]. Ambas
as possibilidades, se utilizados critérios bem restritos quanto ao experimento,
diminuem o espaço químico de busca, uma vez que somente moléculas
semelhantes serão estudadas, podendo enviesar o experimento. A próxima
seção tratará das características de um experimento enviesado.
Após a busca, pode-se dar início a modelagem do possível fármaco. Para

tanto, as duas etapas principais, pela abordagem LBVS, são a exploração do
espaço conformacional dos ligantes e a determinação das características
químicas que são comuns aos ligantes conhecidos e que são responsáveis
pela ligação com a molécula-alvo (binding). Para identificar quais são essas
características, geralmente, os ligantes são alinhados e comparados por
tamanho, forma (shape methods), distribuição de carga e estados
conformacionais [2].

A busca enviesada por moléculas

Quando o objetivo é a busca por moléculas com semelhante nível de
atividade biológica dos ligantes conhecidos, encontrar moléculas que não
sigam o “viés do análogo”, ou analogue bias [4] é um desafio. O “viés do
análogo” é caracterizado pela busca de moléculas muito semelhantes entre
si, restringindo a descoberta de plataformas de ligantes quimicamente
diferentes, mas eficientes, consequentemente, reduzindo o espaço químico
de análise e as possibilidades de inovação.
Uma outra possibilidade, também enviesada, é o que pode ser denominado

como “viés do enriquecimento artificial” [5], que consiste em comparar um
conjunto de moléculas ativas com outras muito dissimilares, podendo gerar
diferenças enviesadas. Por exemplo, se um pesquisador descobre ou já
conhece determinada molécula, de grande peso molecular e boa energia de
ligação com o alvo pesquisado, a comparação com outras moléculas de
pesos moleculares muito mais baixos poderá dar a ilusão de que ele foi um
excelente candidato, com score bem destacado dos demais, quando na
verdade o que de fato ocorreu é que foram feitas comparações injustas.
Também não é interessante que o conjunto de moléculas seja enriquecido

artificialmente pois a avaliação de um algoritmo de pontuação ou mesmo de
mineração de dados poderá tendenciar a indicação de moléculas
semelhantes às ativas, o que pode não ser desejado. Há, então, de se buscar
um equilíbrio entre esses dois vieses, constituindo um espaço de busca que
não se limite a análogos de um dado ligante de referência, nem se pulverize
entre candidatos a ligantes muito diferentes entre si.
Para que a base de dados de moléculas não seja enviesada é importante que
as estruturas, pertencentes a esse conjunto, sejam obtidas de diversas fontes
e que não haja uma seleção ou filtro prévios, de forma que o espaço químico
seja o mais completo e diversificado possível. Porém, sabe-se que se ter um
espaço químico completo, de acordo com [6], é praticamente impossível, já
que o total de pequenas moléculas orgânicas que populam o “espaço
químico” tem sido estimado entre 1060 [6] e 10100 [7], números muito maiores
do que a quantidade de moléculas que já foram feitas e ainda serão. A título
de comparação, de acordo com [7], o espaço químico de moléculas que
podem ser sintetizadas é de apenas 106 e a idade do universo, estimado em
segundos, é na ordem de 1017 [8].
Sendo assim, o ideal é a utilização de um conjunto de moléculas não

enviesado para que, de posse de informações sobre a molécula-alvo e/ou de
ligantes conhecidos, a partir de ferramentas, seja possível identificar novas
moléculas a serem estudadas como prováveis ligantes. Sabe-se, no entanto,
que algumas características físico-químicas precisam ser obtidas de todo o
conjunto, para que sejam utilizadas como parâmetro de comparação. Essas
propriedades podem ser obtidas juntamente com o arquivo da molécula
(quando obtida a partir de uma biblioteca de moléculas) ou podem ser

calculadas com o auxílio de um software como o RDKit [9]. A comparação

das moléculas entre si também pode ser feita a partir do fingerprint de cada
uma delas.
Uma vez que a abordagem LBVS tende a lidar com uma grande quantidade
de moléculas, é realmente interessante avaliar se as mesmas deveriam ser
agrupadas para que um estudo detalhado seja feito somente por
representantes desses grupos. Detalhes sobre agrupamentos ou fingerprints
serão abordados em publicações futuras.
Abordagem mista baseada no alvo e no

ligante
De acordo com [10], as diversas técnicas in silico para descoberta de novos
fármacos podem ser combinadas e utilizadas em conjunto. O LBVS pode ser
utilizado juntamente com o TBVS, quando se tem conhecimento da molécula-
alvo e de alguns ligantes dessa molécula.
Pode ser feita a classificação de moléculas em uma biblioteca de compostos

de acordo com o cálculo da probabilidade de a molécula ter, conforme
verificação do pesquisador, boa energia de ligação à molécula-alvo. Nesse
caso, utiliza-se de um conjunto de moléculas ativas (ligantes) e outro
conjunto de moléculas inativas para treinar um algoritmo classificador. Este
avalia, por meio de diversos métodos de aprendizado de máquina, se uma
molécula, dentro de um conjunto desconhecido, seria ativa ou inativa.
Cavasotto [2] diz que esse é um método ainda pouco utilizado e não
necessita de informações sobre a molécula-alvo; porém, se forem utilizadas
técnicas da abordagem TBVS, a precisão dos resultados pode melhorar
consideravelmente.
Avaliação de Ferramentas de Triagem

Virtual
A Tabela 1 fornece um comparativo entre as ferramentas de Triagem Virtual
disponíveis atualmente, ordenadas por data de publicação, ou de criação da
ferramenta, da mais antiga para a mais recente. Essas ferramentas foram
analisadas considerando as limitações da plataforma, tais como o limite de
docking diários, detecção ou não de pockets, quantidade de moléculas
disponíveis para realização do docking e outros detalhes. As conclusões
obtidas são apresentadas a seguir.
Fonte targets; Visualização de

Nome Limitações
hits moléculas
DockingServer Upload e RCSB JSMol Dois docking

(2009) PDB; PubChem diários; Registro

no sistema para
utilização
264 proteínas
SwissDock (2011) RCSB PDB; Zinc JSMol disponíveis; não
detecta pockets
Não detecta
pockets;
Aprovação de
DockThor (2014) Upload; Upload JSMol
projeto para
mais de 1000
moléculas
Envio de
pequenas
moléculas
Upload e RCSB somente no
PDB; Upload, formato SMILES;
EasyVS (2019) NGLView
diversas não é possível
bibliotecas agrupar
moléculas além
dos grupos pré-
processados
Tabela 1: Resumo da comparação das ferramentas utilizadas para Triagem

Virtual. Fonte: [10].
Alguns dos pontos que foram analisados dizem respeito a possibilidade de

envio ou não de arquivos (tanto para proteína-alvo quanto para pequenas
moléculas/hits), se existem bibliotecas de compostos disponíveis e, dessas,
podem ser aplicados filtros para seleção de um conjunto de moléculas a
partir de propriedades físico-químicas, entre outras características.
Uma das principais características verificadas, por essas serem ferramentas

acessíveis pela internet, diz respeito ao design do sistema com foco na
responsividade: se o sistema reage às necessidades dos usuários e seus
dispositivos, alterando a disposição e/ou apresentação do conteúdo em
diferentes formas e tamanhos de telas. Esse termo (design responsivo) foi
primeiramente definido por [11].
DockingServer
O DockingServer (disponível em www.dockingserver.com/web) [12] é uma
ferramenta que permite o docking entre proteínas e pequenas moléculas.

Com a possibilidade de mais recursos a usuários que pagam pela

plataforma, a ferramenta estabelece diversas limitações para usuários
visitantes e que realizaram o registro gratuito na plataforma. Dentre as
limitações, estão a quantidade de docking diário, espaço para
armazenamento do resultado e número de processadores dedicados, dentre
outros.
Figura 2: Tela inicial da ferramenta DockingServer. Fonte:

<https://www.dockingserver.com/web/>, acesso em 6 ago. 2021.
A referida ferramenta utiliza, para o docking, o AutoDock 4 [13]. A seleção de

pequenas moléculas para docking pode ser feita somente pela busca
manual (pelo nome) entre as moléculas disponíveis ou pelo upload de
arquivos.
Aqui vale salientar que no processo de testes da referida ferramenta foram

feitos envios de um arquivo para target e outro como ligante. Durante a
utilização da ferramenta, o ligante enviado não pode ser encontrado, porém,
a interface do sistema apresentou muitas moléculas disponíveis em uma
lista, mostrando que o conjunto de moléculas enviadas por usuários não
registrados são compartilhadas com os demais também não registrados.
Sendo assim, o teste não pode ocorrer como programado.
SwissDock
SwissDock (disponível em http://www.swissdock.ch) [14] é um serviço web
que prediz interações moleculares que podem ocorrer entre uma proteína
alvo e uma pequena molécula, podendo ser automaticamente preparadas
para o docking. SwissDock utiliza o EADock DSS engine e, após testes, foi
possível identificar algumas limitações, descritas a seguir.

Figura 3: Tela inicial da ferramenta SwissDock. Fonte: <http://www.swissdock.ch>,

acesso em 6 ago. 2021.
SwissDock possui apenas 264 alvos (no artigo e no site não há descrição dos
critérios utilizados para a seleção desses alvos). Essa limitação de
quantidade de alvos limita o pesquisador no estudo de ligantes para
somente os alvos disponíveis na ferramenta.
Para usar a ferramenta é necessário inserir a molécula que será usada no

docking através do nome descrito na base de dados ZINC, da categoria de
molécula ou upload de arquivo (até 5MB). Caso o usuário queira realizar o
filtro das moléculas, é possível fazê-lo pelo nome ou categoria da molécula,
sem a busca por propriedades físico-químicas, que seria bastante útil.

O sistema também não detecta os pockets automaticamente, não mostra as

moléculas (targets ou ligantes), não exige e-mail para recuperação dos
resultados e a página web não é responsiva. SwissDock está disponível em
<http://www.swissdock.ch>.
DockThor
DockThor [15] também é uma ferramenta para docking entre proteína e
ligante, desenvolvida no Brasil. O sistema faz docking usando um algoritmo
desenvolvido pelo próprio grupo e o JSMol para visualização dos resultados. O
DockThor é hospedado no supercomputador brasileiro, chamado Santos
Dumont, localizado em Petrópolis – Rio de Janeiro, disponibilizando em seu
próprio portal a utilização da ferramenta através da infraestrutura de alto
desempenho do SINAPAD (Sistema Nacional de Alto Desempenho). DockThor
está disponível em <https://www.dockthor.lncc.br>.

Figura 4: Tela inicial da ferramenta DockThor. Fonte:

<https://www.dockthor.lncc.br/v2/>, acesso em 6 ago. 2021.
Entretanto, DockThor apresenta algumas limitações como no fato de não

detectar pockets, não possuir uma base de dados de proteínas e hits, além
de exigir registro para dockings com mais de 1.000 moléculas (sendo
necessário o envio e aprovação de um projeto).
EasyVS
O EasyVS [10, 16] é uma ferramenta que possibilita um conjunto amplo de
funcionalidades, muitas delas já citadas nas demais ferramentas.

Figura 5: Tela inicial da ferramenta EasyVS. Fonte:

<http://biosig.unimelb.edu.au/easyvs/>, acesso em 6 ago. 2021.
Primeiramente, o usuário seleciona uma proteína alvo a partir do PDB ID ou

faz o upload do arquivo desejado. A molécula selecionada será preparada
para as demais etapas, caso a mesma já não se encontre previamente
processada na base de dados interna do sistema (no caso de escolha de PDB
ID, já que no upload de proteína alvo o arquivo sempre é processado). Há
uma opção para o usuário inserir seu e-mail para ser notificado quando as
tarefas por ele solicitadas forem finalizadas.
Como segunda etapa, a proteína alvo é exibida, mantendo ou não moléculas

de água e heteroátomos (conforme escolhido na primeira etapa),
juntamente com as configurações para realização do docking. Basicamente,
o usuário visualiza a proteína a partir de cartoon, ball e sticks, licorice ou
spacefill (Figura 6) e lhe é apresentado uma lista de pockets encontrados
pelo Ghecom, em ordem decrescente de volume. O usuário pode selecionar
algum dos pockets sugeridos ou informar coordenadas para que o centro do
box seja posicionado.

Figura 6: Visualização da proteína 6HLL a partir de cartoon, ball e sticks, licorice ou

spacefill no EasyVS. Fonte:
<http://biosig.unimelb.edu.au/easyvs/step2/94E1445A4A00483781B1FEAC718CCAA5>,
Para o docking, além do posicionamento manual do centro do box, algumas

configurações avançadas são permitidas. São elas: tamanho do box,
exhaustiveness, número máximo de poses geradas para cada pequena
molécula e energy range. Todos esses parâmetros são específicos para o
Autodock Vina, software utilizado para docking no EasyVS.
Após a configuração do docking, a terceira etapa consiste na seleção de

moléculas para estudo. Diferentemente de algumas das ferramentas aqui
descritas, o EasyVS possui uma biblioteca de moléculas bastante variada,
abrangendo DrugBank, HMDB (Human Metabolome Database), Maybridge,
ChEMBL, Supernatural, Zinc e Chembridge. Caso esse conjunto de moléculas
não atenda ao que o usuário deseja, pode-se fazer upload de um arquivo
com SMILES de moléculas para o estudo. Essas moléculas ficarão acessíveis
somente pelo pesquisador em questão.
Além da escolha de quais bibliotecas de compostos o estudo utilizará, é

possível a aplicação de diversos filtros com propriedades físico-químicas das

moléculas envolvidas. Pode-se filtrar as moléculas, dentre as que estão

disponíveis na ferramenta, a partir de número de átomos, peso molecular,
quantidade de doadores e aceptores de hidrogênio, número de anéis,
ligações rotacionáveis e valor LogP.
O agrupamento das moléculas envolvidas pode ser realizado a partir da

similaridade das moléculas com base em um valor de cutoff. O algoritmo
utilizado no agrupamento foi elaborado por [17]. Nele, há a garantia que a
similaridade selecionada pelo usuário seja respeitada, tendo como entrada
para o algoritmo os fingerprints das moléculas selecionadas, usando o
MACCS166. A título de exemplo, caso a similaridade escolhida seja 0.85, essa
opção fará com que as moléculas selecionadas sejam agrupadas em grupos
com similaridade de, ao menos, 85% dos features de cada molécula com um
determinado representante do grupo, denominado de centroide. Em cada
grupo, uma molécula é selecionada aleatoriamente para que seja feito o
docking e o resultado seja apresentado na etapa quatro.
Finalmente, na última etapa (Figura 7), todas as moléculas são apresentadas,

conforme o resultado do docking for sendo disponibilizado pela ferramenta.
Salienta-se que há uma previsão de tempo para que o processamento seja
finalizado (tempo este apresentado ao usuário na etapa 3). Porém, o tempo
prevê somente o processamento do conjunto de moléculas selecionadas em
si, e não os processos de outros usuários que possam estar sendo
executados. Para cada resultado apresentado, é possível visualizar a
afinidade entre a pequena molécula e o alvo, as poses, propriedades físico-
químicas, além da possibilidade de download de todas as poses preditas
(Figura 8), o estudo da molécula em si pelo pkCSM [18] e a otimização da
molécula usando o próprio EasyVS (Figura 9).

Figura 7: Resultados do processamento do docking no EasyVS. Fonte:

<http://biosig.unimelb.edu.au/easyvs/step4/44B5424C2EC24F68BF6450679D1C702A>,

Figura 8: Visualização de poses preditas no EasyVS. Fonte:

A otimização do resultado apresentado pela ferramenta (Figura 8) consiste

em criar um novo espaço químico conforme a molécula selecionada. Para
isso, o usuário visualiza uma determinada molécula que tiver um resultado
que considerar interessante, clica no botão “Optimise” e seleciona o nível de
similaridade com a molécula em questão. Essa opção irá retornar a etapa
anterior (etapa 3) com um conjunto de moléculas semelhantes à molécula
de referência. Esse processo poderá ser repetido indefinidamente, o que
possibilita que o usuário encontre resultados com afinidades, entre as
moléculas envolvidas, cada vez maiores.

Figura 9: Configuração de otimização EasyVS. Fonte:

acesso em 6 ago. 2021
Por fim, cabe ressaltar que maior parte das ferramentas analisadas
estabeleciam limitações de recursos ou de funcionalidades para seus
utilizadores, podendo ser devido à grande utilização e objetivando prover o
acesso a uma maior quantidade de pesquisadores. A única ferramenta
analisada que ainda não limita recursos a seus utilizadores é o EasyVS,
porém, sabe-se que o tempo de resposta para obtenção de resultados pode
variar conforme a quantidade de requisições ao servidor e, devido a essa
questão, limitações semelhantes às demais ferramentas podem ser
estabelecidas.
Referências
[1] Domingues & Lopes, 2012 – Domingues, B. F.; Lopes, J. C. D. (2012). 3D-
Pharma: Uma Ferramenta para Triagem Virtual Baseada em Fingerprints de
Farmacoforos.
http://www.bibliotecadigital.ufmg.br/dspace/handle/1843/BUBD-9DKHDA
[2] CAVASOTTO, Claudio N. (Ed.). In silico drug discovery and design: theory,
methods, challenges, and applications. CRC Press, 2015.
[3] VERLI, Hugo. Bioinformática: da biologia à flexibilidade molecular. 2014.
[4] GOOD, Andrew C.; OPREA, Tudor I. Optimization of CAMD techniques 3.

Virtual screening enrichment studies: a help or hindrance in tool selection?.
Journal of computer-aided molecular design, v. 22, n. 3, p. 169-178, 2008.
[5] VERDONK, Marcel L. et al. Virtual screening using protein− ligand docking:
avoiding artificial enrichment. Journal of chemical information and computer

sciences, v. 44, n. 3, p. 793-806, 2004.
[6] Kirkpatrick, P. & Ellis, C. (2004). Chemical space. Nature, 432:823–823. ISSN
0028- 0836.
[7] WALTERS, W. Patrick; STAHL, Matthew T.; MURCKO, Mark A. Virtual screening-
an overview. Drug discovery today, v. 3, n. 4, p. 160-178, 1998.
[8] ADE, Peter AR et al. Planck 2015 results-xiii. cosmological parameters.

Astronomy & Astrophysics, v. 594, p. A13, 2016.
[9] Landrum, G. (2006). RDKit Documentation.
[10] VELOSO, W. N. P. Easyvs: uma ferramenta para triagem virtual mista

baseada em alvo e ligante. Tese de Doutorado – Universidade Federal de
Minas Gerais. Belo Horizonte. 2019. Disponível em:
<http://hdl.handle.net/1843/30754>, acesso em 21 maio 2021.
[11] Marcotte [2010] – Marcotte, E. (2010). Responsive Web Design.

http://alistapart.com/article/responsive-web-design
[12] BIKADI, Zsolt; HAZAI, Eszter. Application of the PM6 semi-empirical method
to modeling proteins enhances docking accuracy of AutoDock. Journal of
Cheminformatics, v. 1, n. 1, p. 1-16, 2009.
[13] Morris et al., 2009 – Morris, G. M., Ruth, H., Lindstrom, W., Sanner, M. F., Belew,
R. K., Goodsell, D. S., & Olson, A. J. (2009). Software news and updates
AutoDock4 and AutoDockTools4: Automated docking with selective receptor
flexibility. Journal of Computational Chemistry, 30(16), 2785–2791.
https://doi.org/10.1002/jcc.21256
[14] Grosdidier et al., 2011 – Grosdidier, A., Zoete, V., & Michielin, O. (2011).
SwissDock, a protein-small molecule docking web service based on EADock
DSS. Nucleic Acids Research, 39(Web Server issue), W270-7.
https://doi.org/10.1093/nar/gkr366
[15] de Magalhães et al., 2014 – de Magalhães, C. S., Almeida, D. M., Barbosa, H.

J. C., & Dardenne, L. E. (2014). A dynamic niching genetic algorithm strategy for
docking highly flexible ligands. Information Sciences, 289, 206–224.
https://doi.org/10.1016/J.INS.2014.08.002
[16] Pires, Douglas E. V., et al. “EasyVS: A User-Friendly Web-Based Tool for
Molecule Library Selection and Structure-Based Virtual Screening”.
Bioinformatics, vol. 36, n. 14, julho de 2020, p. 4200–02.
https://doi.org/10.1093/bioinformatics/btaa480.

[17] Butina, D. (1999). Unsupervised data base clustering based on daylight’s

fingerprint
and Tanimoto similarity: A fast and automated way to cluster small and large
data
sets. Journal of Chemical Information and Computer Sciences, 39(4):747–750.

ISSN
00952338.
[18] Pires, 2015 – Pires, D. E. V., Blundell, T. L., & Ascher, D. B. (2015). pkCSM:
Predicting Small-Molecule Pharmacokinetic and Toxicity Properties Using
Graph-Based Signatures. Journal of Medicinal Chemistry, 58(9), 4066–4072.
https://doi.org/10.1021/acs.jmedchem.5b00104
[19] Santos, LH. Docagem molecular: em busca do encaixe perfeito e acessível.

In: BIOINFO – Revista Brasileira de Bioinformática e Biologia Computacional. 1.
Ed. Vol. 1. Lagoa Santa: Editora Alfahelix, 2021. DOI: 10.51780/978-6-599-275326

11
Dinâmica molecular: como mostrar um filme

completo em uma folha de papel?
By Diego Mariano
2 de julho de 2021
Dinâmica molecular: como mostrar um filme completo em uma folha de

papel?
Diego Mariano , Bruno M. Silva
Revisão: Leonardo Lima
DOI: 10.51780/978-6-599-275326-11
C
ompreender como as moléculas se comportam pode ser
essencial para desvendar seus mecanismos de atuação, o que
pode ter diversas utilidades no campo da biologia, como por
exemplo, descoberta de novos medicamentos e outros
produtos biotecnológicos. Quando falamos sobre comportamento e
mecanismo de ação de uma molécula, estamos nos referindo a sua
mobilidade espacial, a como ela se comporta em variações de temperatura
(termoestabilidade) e a como ela reage ao interagir com outras moléculas.
Em bioinformática estrutural, a técnica responsável por simular
computacionalmente o comportamento de moléculas por um período de
tempo é denominada dinâmica molecular [1].
Como pode perceber, essa simulação não é um processo simples. Moléculas

mais complexas, como as proteínas que formam os nossos corpos, podem
possuir dezenas de milhares de átomos realizando diversos tipos de
interações entre si. Lembre-se que proteínas são formadas por fortes
interações covalentes em suas cadeias principais, além de interações, em
geral, fracas entre suas cadeias laterais. Essas interações irão determinar a
forma de uma proteína e, consequentemente, seu papel neste mundo cruel. E
não podemos nos esquecer que os átomos dessa proteína em questão
realizam interações com outros átomos presentes no ambiente (na maioria
das vezes, água e sais minerais). Portanto, essa simulação tem um alto custo
computacional quando comparado a outros métodos de bioinformática
estrutural, como a modelagem de estruturas tridimensionais e o docking
molecular (Figura 1).

Figura 1. Se fizéssemos uma analogia, a modelagem de estruturas poderia ser vista como
uma pintura, o docking molecular seria como uma foto e a dinâmica molecular seria um
filme. Fonte: próprio autor.
A modelagem molecular de estruturas 3D de proteínas refere-se às técnicas

computacionais que visam obter a estrutura tridimensional de uma proteína
com base apenas em sua sequência (obter sequências por experimentos de
bancada é bem mais barato do que obter estruturas). Se pudéssemos
representar as metodologias da bioinformática estrutural como coisas do dia
a dia, a modelagem de proteínas poderia ser vista como a pintura de um
quadro ou um desenho artístico. Vamos supor que você deseja pintar um
quadro de sua tataravó na juventude. Entretanto, você não possui nenhum
registro visual dela. Nesse caso, teríamos duas formas de produzir essa arte:
(i) um desenho comparativo (realizado com base na foto de uma prima que
sua avó garante ser a cara da sua tataravó na juventude), ou (ii) um desenho
totalmente sem referência (baseado apenas em relatos ou na sua
imaginação de como ela seria). No caso da modelagem de proteínas
chamamos essas duas possibilidades de modelagem comparativa, quando
se possui uma estrutura parecida para servir de referência, e modelagem ab
initio (ou modelagem de novo), quando a modelagem é feita com base na
sequência usada como entrada e/ou nos dados de restrição espaciais ou
campos de força. Não precisamos nem destacar que, assim como a pintura
de um retrato realizada apenas com base em sua imaginação, a modelagem
ab initio é bem mais complexa que a modelagem comparativa.
Outra analogia que poderia ser feita refere-se ao docking molecular, também
conhecido como ancoramento molecular, atracamento molecular, docagem
ou apenas docking. Essa técnica visa obter as posições conformacionais de
uma molécula quando interage com outra molécula. Um exemplo seria a
simulação das interações realizadas por uma proteína com um ligante
(pequena molécula). O docking pode ser visualizado como uma foto tirada
no exato momento em que as moléculas estão interagindo. Assim como as
dezenas de fotos que você tirou no churrasco de aniversário da sua avó (a
mesma que pediu para que você pintasse o quadro da sua tataravó), o

docking requer múltiplas tentativas e análises. Digamos que você teve que
tirar fotos até que todos ficassem bonitos na fotografia (ou pelo menos o
mais próximo disso). No caso do docking, pode-se utilizar a posição que mais
se repete ou a posição que melhor atenda ao protocolo de pontuação
utilizado (isso depende da ferramenta usada). Um ponto que devemos
destacar é que, apesar dos diferentes métodos de docagem, o resultado final
ainda será uma imagem estática. E, assim como uma foto não consegue
guardar para a eternidade os detalhes da dancinha malemolente que seu tio
fez na festa de aniversário da sua avó, o docking não consegue representar o
aspecto dinâmico das interações de uma proteína. Para analisar o
comportamento vergonhoso do seu tio precisamos de uma câmera
filmadora de alta resolução. Se tratando do comportamento de
macromoléculas não podemos filmar (ainda não temos tecnologia suficiente
para visualizar em tempo real coisas tão pequenas ou interações que
ocorrem absurdamente mais rápido do que um piscar de olhos). A solução é
utilizar computadores para simular o que irá acontecer.
Por exemplo, digamos que desejamos simular como um fármaco, que

potencialmente poderia ser utilizado para curar uma doença, interage com
uma proteína-alvo em determinada parte do corpo humano. Na nossa
simulação desejamos ver se o fármaco irá se ligar fortemente à proteína,
restringindo seus movimentos. Por isso não podemos apenas observar “uma
foto” dessa interação, e sim visualizar essa simulação por um período de
tempo, ou seja, como se fosse um filme. Em condições normais, proteína e
fármaco estarão envolvidos em ambiente aquoso (vamos desprezar, por
enquanto, todas as outras muitas coisas que podem estar lá). Logo, para
simular as interações precisamos colocar tanto o fármaco quanto a proteína
em uma caixa e enchê-la, por exemplo, de moléculas de água. Os campos de
força ilustram numericamente e fisicamente o que irá acontecer quando um
átomo ou um grupo de átomos se aproxima de outros. Podemos ter
interações de atração ou repulsão. E como todos esses átomos estão dentro
da mesma caixa, as interações de determinados átomos impactam nas
interações de outros e de outros, gerando um efeito em cascata. Imagine que
o átomo A repulsa o átomo B posicionado a uma distância X, em um ângulo
Y, com uma força Z. Esse átomo B então interage com um átomo C, que
interage com um átomo D, e assim sucessivamente. Mesmo sistemas simples
que armazenam uma proteína, um ligante e uma caixa d’água podem ter
dezenas de milhares de átomos. Imagine a quantidade de cálculos que seria
necessário realizar a cada janela de tempo. Por isso, esses cálculos de
interações átomo-a-átomo não são realizados repetidamente, mas sim a
partir de funções e representações. As simulações de dinâmica molecular,
em geral, usam campos de força para representar as forças que atuam em
um ambiente simulado. Campos de força são parametrizações das
interações que podem ocorrer, ou seja, são funções com estimativas de
energia. O uso deles permite reduzir a complexidade dos cálculos que
deverão ser realizados. Mesmo assim, os custos computacionais ainda são
altíssimos.
Falando de uma maneira bastante leiga, podemos dizer que um filme é

composto por uma série de fotos tiradas e exibidas em sequência (ignore o

áudio). Nesse contexto, chamamos cada imagem exibida em um filme de

frame (ou quadro). Para detectar movimento, o cérebro humano precisa de
aproximadamente 12 frames exibidos sequencialmente por segundo (12 FPS –
frames por segundo). Abaixo desse valor, o cérebro imagina que se trata
apenas de imagens sendo trocadas rapidamente. Na prática, um vídeo
abaixo dessa taxa de frames por segundo nos dá a sensação de tremulação,
como se o vídeo estivesse “engasgando”. Filmes de estúdio, em geral, usam a
taxa de 24 FPS. Entretanto, algumas câmeras utilizam sistemas de gravação
iguais ou superiores a 60 FPS, o que deixa a imagem mais nítida e reduz os
borrões (às vezes, essa nitidez gera uma sensação estranha, por isso taxas de
quadro por segundo muito altas não são tão usadas). Em jogos digitais, taxas
de FPS altas dão uma sensação de maior qualidade e responsividade. Em
simulações de dinâmica molecular utiliza-se conceitos similares para
representar cada frame. Entretanto, as interações moleculares ocorrem
extremamente rápido. Por exemplo, os movimentos de uma proteína podem
ocorrer em uma escala de tempo de até 10−15 segundos [1], ou seja, em um
segundo a proteína já poderia ter repetido esse movimento um quatrilhão de
vezes. Por isso, não faz sentido usar escalas tão grandes (como frames por
segundo) para simulação de interações moleculares.
Assim, em uma dinâmica molecular costuma-se utilizar a escala de

femtossegundo (fs). Um femtossegundos é equivalente a 10-15 segundos. Por
exemplo, em uma simulação de dinâmica molecular, cada frame representa
2 fs. Logo, seriam necessários pelo menos 500 frames para a simulação de 1
ns (equivalente a 10-9 segundos). Um nanosegundo é o valor de tempo
mínimo para observar um movimento de corpo rígido. Para um movimento
de grande escala, seria necessário pelo menos 100 ns (equivalente a 10-7
segundos; ver quadro abaixo).
Os movimentos de uma proteína podem ocorrer em uma escala de

tempo que varia entre 10-15 e 104 segundos. Em geral, esses movimentos
podem variar em uma amplitude de 0,01 e 100 Å (leve em consideração
que a distância entre carbonos-alfa de dois resíduos de aminoácido
vizinhos em uma proteína é de aproximadamente 3,5 Å) [1, 2]. Segundo
Tousignant & Pelletier (2004) [1], proteínas podem realizar três tipos de
movimentos que influenciam na organização da proteína:
1. Movimentos locais (smallest ou local motions), como flutuações de

átomos, movimentos de cadeias laterais ou de loops (ocorrem entre
10-15 e 10-1 segundo);
2. Movimentos de corpo rígido (rigid-body motions), como quando uma

parte da proteína (como hélices-alfa, subunidades ou domínios) se
move em relação a outra (ocorrem entre 10-9 e 1 segundo);
3. Movimentos de grande escala (large-scale motions), como

movimentos de abertura, além de transições de enovelamento e
desenovelamento (ocorrem entre 10−7 e 1.000 segundos).

Como imprimir um filme?

Há um grande problema quando se trata de analisar os resultados de uma
dinâmica molecular. A forma de divulgação mais utilizada no meio
acadêmico é o artigo científico publicado em uma revista periódica. Esse tipo
de artigo utiliza textos, figuras e tabelas para resumir, em poucas páginas, os
principais resultados da pesquisa. Então, como representar o resultado de
uma dinâmica molecular em um artigo? Ou seja, como exibir um vídeo em
uma folha de papel?
Você não pode imprimir frame a frame do seu vídeo, mas há algumas
estratégias que podem ser adotadas. Como por exemplo, exibir frames mais
representativos, mostrar gráficos de RMSD, RMSF, energia de interação, raio de
giro, contatos, dentre outros. Nas próximas seções, vamos discutir algumas
dessas formas.
Exibindo frames mais representativos

Você pode escolher as partes mais importantes de sua dinâmica e exibir
frames estáticos delas (há programas e técnicas de agrupamento que
permitem realizar essa tarefa automaticamente). A vantagem dessa
estratégia é que permite que você apresente uma representação visual da
sua simulação. A desvantagem é que apenas uma fração mínima da
dinâmica será exibida, o que poderá influenciar na percepção do leitor sobre
seus resultados. A figura 2 apresenta cinco frames de uma dinâmica
molecular.
Figura 2. Ilustração de cinco frames de uma simulação de dinâmica molecular. A figura

mostra a saída da glicose do sítio ativo de uma enzima beta-glicosidase. Fonte: adaptado
de [3].
Pode-se ainda sobrepor os frames mais representativos em uma única

imagem (Figura 3). Entretanto, deve-se tomar cuidado com esse tipo de
visualização, pois sobrepor muitos frames pode prejudicar o entendimento.

Figura 3. Frames mais representativos de uma dinâmica de beta-glicosidase foram

sobrepostos. A estrutura do backbone é apresentada como cartoons cinzas. Alguns
resíduos de aminoácidos foram destacados nas cores azul, vermelho e amarelo. O ligante é
apresentado em verde. Note que essa figura ilustra como ele se distancia da proteína.
Essa visualização é prejudicada pela sobreposição de muitas estruturas. Fonte:
adaptado de [3].
Gráfico de RMSD
Ao avaliar um sistema que está em movimento, você precisa de um gráfico
que represente sua mobilidade. Uma forma de fazer isso é utilizar o desvio
quadrático-médio das distâncias dos átomos (ou do inglês root-mean-
square deviation ou somente RMSD). Nesse tipo de gráfico é feita uma
comparação frame a frame da variação das distâncias. Quando o gráfico
alcança o platô, ou seja, não tiver mais tantas variações, pode-se dizer que o
sistema entrou em equilíbrio, indicando que a proteína, por exemplo, não
apresenta mais tantas modificações estruturais. A figura 4 ilustra esse tipo de
gráfico. Nela, as linhas indicam o quanto uma molécula se moveu de sua
posição inicial. Observe que, após alguns nanosegundos, as linhas se
mantêm constantes em aproximadamente 1 Å. Isso indica que o sistema está
em equilíbrio.

Figura 4. Gráfico de RMSD por tempo para quatro sistemas compostos por enzimas beta-
glicosidase das famílias GH1 e GH3 em complexo com glicose e celobiose. O eixo Y indica a
variação de distância e o eixo X o tempo. As cores indicam replicatas diferentes. Fonte:
adaptado de [3].
Outro exemplo desse tipo é o gráfico de RMSD 2D (Figura 4). Nesse exemplo,
vemos um gráfico da mobilidade de uma região composta por quatro loops
de nove proteínas homologas e mutantes de beta-glicosidases. Note como
as cores quentes indicam claramente quais as mutantes têm maior
mobilidade. No gráfico RMSD simples, vemos que cada parte da simulação é
analisada em relação ao quão distante ela está de uma única pose de
referência (na Figura 4, a pose de referência é a conformação inicial da
proteína). Por outro lado, o gráfico de RMSD 2D apresenta uma comparação
todos-contra-todos de poses da dinâmica molecular. Nesse caso, as cores
variam de azul a vermelho para indicar o quanto a pose em cada quadro no
eixo X está próxima do quadro no eixo Y. Perceba que o valor da diagonal
sempre será zero, uma vez que ela indica a distância de um frame contra ele
mesmo. Ambos os gráficos de RMSD, simples ou 2D, podem ser feitos para
uma dinâmica (Figura 4) ou comparando dinâmicas de sistemas parecidos
(Figura 5).

Figura 5 Gráfico de RMSD 2D de uma dinâmica da região de loops (denominada como LA-
D-E) de nove proteínas homólogas da família beta-glicosidase (denominadas como Bgl1A,
Bgl1B e mais sete mutantes destas proteínas). Note como as cores nos apontam uma clara
alta mobilidade nas mutantes N301Q/V302F e G246S (linhas mais avermelhadas). Fonte:
adaptado de [4].
Gráfico de RMSF
O RMSF (root-mean-square fluctuation) corresponde ao RMSD da média ao
longo do tempo. O RMSF é um modo de visualizar quais resíduos estão com
maior mobilidade espacial. Por exemplo, você pode estar estudando uma
mutação em uma determinada proteína. Após a dinâmica, você observa que
esse resíduo está bem menos móvel quando comparado com a proteína
selvagem. Isso pode implicar em ganhos ou perdas de interações da proteína
com o ambiente. A figura 6 ilustra como um gráfico de RMSF por resíduos
pode ser utilizado para destacar regiões mais móveis de uma proteína.
Observe que os resíduos que apresentam os maiores “picos” estão em
regiões de loops.

Figura 6. Gráfico de RMSF para os mais de 400 resíduos de uma proteína beta-
glicosidase. As linhas indicam a variação da mobilidade. Quanto mais alta a linha, maior a
mobilidade. Regiões específicas de loops foram grifados acima (como LA, LB, dentre
outros). Fonte: adaptado de [4].
Gráfico de energia de interação, ângulo e distância

O gráfico de energia de interação nos mostra se o sistema adquiriu o seu
mínimo enérgico e, com isso, o equilíbrio. Já ângulo e distância podem ser
usados para avaliar a mobilidade de ligantes em uma proteína. Esse gráfico
também é usado para prever conformações mais adequadas de peptídeos
ou proteínas, uma vez que esses sistemas tendem a adquirir uma
conformação estável em um vale de energia negativa. A figura 7 ilustra um
gráfico que usa cor para representar a energia (dada em kJ/mol), o eixo X
para indicar a distância (dada em ângström) e o eixo Y para indicar a
variação de ângulo (veja que o eixo vai de ~20 a 120º).
Figura 7. Gráfico de FEL (free energy landscape). Esse

gráfico usa a cor para indicar a variação de energia (dada

em kJ/mol), o eixo X para indicar a distância de

mobilidade do ligante em relação à proteína (dada em
ângströms) e o eixo Y para indicar a variação de ângulo
desse mesmo ligante (veja que o eixo vai de ~20 a
120º). Números destacam seis diferentes estados dessa
proteína. Fonte: adaptado de [3].
Contatos
A visualização de contatos é mais utilizada para avaliar interações entre
proteína e ligante. O uso mais comum está na análise de estruturas estáticas,
como interações entre resíduos de partes de estruturas tridimensionais de
proteínas. Entretanto, gráficos de linha do tempo podem ser utilizados para
demonstrar a variação de contatos conforme a dinâmica ocorre. A Figura 8
apresenta um gráfico de linha do tempo para uma dinâmica molecular de
avaliação do escape do ligante do sítio ativo. Aqui vemos resíduos que
interagiram com o ligante no caminho de saída dele, além de uma estimativa
visual de quanto tempo ficaram interagindo.
Figura 8. Variação de contatos para uma série de resíduos do bolsão catalítico de uma
enzima beta-glicosidase da família GH1 com um ligante (no caso, glicose). O tamanho das
barras indica o percentual de tempo em que cada resíduo ficou interagindo com o ligante.

As barras coloridas em verde indicam resíduos que mais interagiram em determinado

período de tempo (o gráfico mostra três períodos distintos: B1, B2 e B3). Barras amarelas
indicam um nível médio de interação e vermelha pouca interação. Fonte: adaptado de [3].
Raio de Giro
Bastante usado para estudo de enovelamento de peptídeos e proteínas. O
raio de giro está relacionado ao deslocamento do centro de massa da
proteína em relação a um eixo. Simplificando, quanto mais volumosa uma
proteína, maior o seu raio de giro. Nesse caso, podemos dizer que quando
uma proteína está desestruturando, o seu raio de gira aumenta.
Figura 9. Exemplo de gráfico ilustrando raio de giro por tempo de simulação. Fonte:
próprio autor.
Apenas mostre o filme

Obviamente em artigos impressos não há como visualizar (sinto muito se
você está lendo uma versão impressa deste artigo), mas quando se trata de
revistas acessadas em meio digital é possível incluir vídeos interativos. Nesse
caso, plataformas de compartilhamento de dados de pesquisa como o
Zenodo ou plataformas de compartilhamento de vídeos como o YouTube
podem ser úteis. Veja um exemplo a seguir:
Neste vídeo, vemos as interações da molécula de glicose com resíduos de

uma proteína beta-glicosidase. Vídeo gerado usando VMD.
Apenas transcrevendo o que foi observado no texto

Não é o “melhor dos mundos”, mas também é uma possibilidade. Nesse caso,
seus leitores terão que confiar na sua habilidade de contar o que aconteceu.
Show Your Data

Outra opção seria disponibilizar os arquivos gerados pela simulação para que
qualquer pessoa consiga reproduzi-los em seu próprio computador.
Entretanto, deve-se considerar que os arquivos brutos de uma dinâmica

podem requisitar muito espaço para armazenamento, o que dificulta, por

exemplo, o compartilhamento pela internet.
As três dinâmicas
No geral, podemos dizer que existem três métodos de dinâmica molecular: (i)
mecânica molecular (MM, dinâmica clássica ou mecânica clássica), que se
baseia na integração das leis de movimento de Newton; (ii) mecânica
quântica (MQ), a partir das equações quânticas, como por exemplo a
equação de Schrödinger; e os (iii) métodos híbridos de MM e MQ.
Esses métodos possuem algumas diferenças importantes, impactando por

exemplo no tempo de execução. É claro que devemos levar em consideração
que tanto a quantidade de tempo necessária para o processamento quanto
o tipo de dinâmica que será aplicado estão relacionados com a pergunta a
ser respondida. Se a questão avaliada pelo pesquisador tem relação com
uma interação proteína-ligante, o tempo pode ser um pouco menor do que
se o pesquisador deseja ver somente a estabilidade dela. E não podemos nos
esquecer dos métodos de dinâmica acelerada, metadinâmica, umbrella-
sampling, Monte-Carlo… mas tudo isso é assunto para um outro artigo. Até
mais!
Referências
1. Tousignant A, Pelletier JN. Protein Motions Promote Catalysis. Chemistry &
Biology. 2004;11:1037–42. doi:10.1016/j.chembiol.2004.06.007.
2. Karplus M. Aspects of Protein Reaction Dynamics: Deviations from Simple

Behavior. J Phys Chem B. 2000;104:11–27. doi:10.1021/jp993555t.
3. Costa LSC, Mariano DCB, Rocha REO, Kraml J, Silveira CH da, Liedl KR, et al.
Molecular Dynamics Gives New Insights into the Glucose Tolerance and
Inhibition Mechanisms on β-Glucosidases. Molecules. 2019;24:3215.
doi:10.3390/molecules24183215.
4. Lima LHF de, Fernandez-Quintéro M, Rocha REO, Mariano DCB, Melo-Minardi

RC de, Liedl KR. Conformational flexibility correlates with glucose tolerance for
point mutations in β-glucosidases – A computational study. Journal of
Biomolecular Structure and Dynamics. 2020;0 ja:1–20.
doi:10.1080/07391102.2020.1734484.

12
BI OL OGI A D E S I S T E M AS D E S T AQU ES
Vias biológicas
By Lissur Orsine
21 de junho de 2021
Vias biológicas
Lissur Orsine , Elisa Donnard
DOI: 10.51780/978-6-599-275326-12
U
ma via biológica é uma anotação de um conjunto de interações
moleculares ocorrendo dentro de um sistema biológico. Sistema
biológico pode se referir a uma célula, um tecido, um órgão ou,
até mesmo, o organismo como um todo. As vias são compostas
por entidades biológicas, que podem ser genes, enzimas, metabólitos, outras
vias; e por interações entre as entidades biológicas, que podem ser positivas,
negativas ou neutras. Por exemplo, a Figura 1 mostra a via de
proliferação/diferenciação, isto é, o mecanismo molecular pelo qual uma
célula precursora decide entre continuar em um estado indiferenciado ou se
comprometer com um tipo celular específico. Neste caso, as entidades
biológicas são representadas por elipses e as interações entre elas por setas
ou barras em T.
Figura 1. Via de proliferação/diferenciação. Sob a influência de estímulos mitogênicos e

fatores de crescimento, há a ativação dos complexos CDK-ciclina (elipses azuis) que são
reguladores-mestre do processo de proliferação/diferenciação. Estes complexos são
responsáveis por enfraquecer a ligação de pRb à E2F (elipses laranja) conduzindo a célula
precursora à fase S do ciclo celular (ou seja, à proliferação). Em contrapartida, pINK e
CIP/KIP (elipses cinzas) são inibidores dos complexos CDK-ciclina impedindo a progressão
do ciclo celular e favorecendo a diferenciação. Já os complexos APC/C e SCF (elipses
cinzas) podem atuar de formas distintas a depender de a quais fatores estão associados.
Retirado de [1].

As vias biológicas mais popularmente conhecidas são as vias metabólicas,

como aquelas presentes no mapa metabólico, o conjunto de todas as
reações bioquímicas do metabolismo (veja um mapa metabólico interativo
aqui) [2]. No entanto, existem outros tipos de vias biológicas, como as vias de
regulação gênica, que representam a ativação ou repressão da transcrição
de genes, e as vias de sinalização, que representam um fluxo de informação
dentro ou entre células realizado através de interações entre proteínas. Ainda,
as vias biológicas podem ser compostas por trechos de diferentes tipos,
como no caso da via de proliferação/diferenciação mostrada acima.
Vias e Redes
O conceito de via é associado a outro conceito conhecido na Biologia de
Sistemas: as redes biológicas. Uma rede biológica também é uma
representação de um conjunto de interações moleculares ocorrendo dentro
de um sistema biológico. De fato, vias e redes são abordagens
complementares dentro da Biologia de Sistemas. No entanto, elas
apresentam particularidades que as tornam mais apropriadas a um ou outro
tipo de estudo.
Nas vias, as interações moleculares apresentam caráter direcional, sendo

possível delimitar um começo e um fim, uma entrada e uma saída, uma
causa e um efeito. O próprio termo via (em inglês, pathway) remete à ideia
de algo que conduz a algum lugar. O mesmo não ocorre com as redes, onde
as interações moleculares não são obrigatoriamente sequenciais.
Além disso, nas vias as interações moleculares são atribuídas por

especialistas, o que significa que elas representam conhecimento científico
consolidado. Por outro lado, as redes são geradas a partir de experimentos
em larga escala, como por exemplo ensaios de imunoprecipitação de
proteínas que interagem entre si, que por sua natureza também incluem
falso-positivos. Por isso, as redes geradas a partir deste tipo de dado podem
conter interações moleculares ainda não descritas, assim como interações
incorretas que ainda não foram identificadas como tal. Essa diferença na
fonte dos dados faz com que, de um modo geral, a informação contida nas
vias seja mais precisa, enquanto que, nas redes, mais abrangente.
Para que serve uma via?

Talvez a aplicação mais conhecida das vias na Bioinformática seja em
análises de enriquecimento. Neste contexto, o pesquisador dispõe de uma
lista de genes/produtos gênicos a qual ele deseja atribuir significado, isto é,
ele deseja responder a questões do tipo “Que genes/produtos gênicos são
estes?”, “Qual o papel molecular/celular destes genes/produtos gênicos?” ou
“Como esses genes/produtos gênicos se relacionam?”. Nas análises de
enriquecimento, busca-se avaliar quais vias conhecidas contêm um número
de genes/produtos gênicos da lista de interesse maior do que o esperado por
acaso. Por exemplo, uma lista de genes com a transcrição aumentada

poucas horas após o reconhecimento de um patógeno por uma célula

dendrítica humana do sistema imune inato mostra enriquecimento para
genes presentes em vias de sinalização inflamatória [3]. Este tipo de análise
depende da existência de bases de dados curadas contendo vias biológicas
(discutidas abaixo) e permite uma rápida interpretação de resultados
experimentais, ao associar genes no contexto de seus papéis funcionais
conhecidos.
As vias também têm sido empregadas na visualização de dados ômicos e

séries temporais, tendo como objetivo novamente facilitar a interpretação
dos mesmos. Alguns exemplos são:
1. usando uma via relevante ao estudo, por exemplo a via de

diferenciação/proliferação da Figura 1, os genes que foram identificados
como superexpressos ou subexpressos em uma certa condição (como
uma condição patológica [4] ou após tratamento com uma droga [5])
podem ser coloridos para revelar por exemplo uma perturbação biológica
em um ponto específico de uma via, implicando um ou mais genes no
controle da resposta observada;
2. pode-se assinalar todos os genes presentes em uma via que contém

polimorfismos (SNPs) associados a uma ou mais doenças, revelando
possíveis relações causais ou de dependência entre eles [6];
3. os genes de uma via podem ser coloridos de forma a sinalizar sua origem
evolutiva, o que permite identificar ramos específicos que surgiram em um
determinado ancestral ou que estão ausentes em certos organismos [7].
Vale lembrar que o propósito primordial das vias é retratar os mecanismos

moleculares por trás de um fenômeno biológico. Assim, as vias ajudam a
entender, do ponto de vista molecular, como uma dada estrutura morfológica
ou um dado processo fisiológico, por exemplo, vieram a ser o que são.
Bases de dados
Existem diversas bases de dados contendo vias. A mais popular delas é o
KEGG Pathway [8, 9, 10] que abriga uma coleção de vias manualmente
curadas, sendo considerada, por isso, uma base de dados de alta
confiabilidade. O Reactome [11], por sua vez, se destaca por oferecer, além de
um grande número de vias, um grande número de ferramentas de análise. Já
o WikiPathways [12] é uma base de dados colaborativa (formato wiki) onde
qualquer usuário registrado pode adicionar ou editar conteúdo.
Programas
Existem diversos programas para o desenho, a edição e a análise de vias.
Embora inicialmente concebido para o estudo de redes, atualmente o
Cytoscape [13] conta com a opção de visualizar e analisar vias advindas das
bases de dados KEGG Pathway, Reactome e WikiPathways [14, 15, 16]. Com
uma interface gráfica de fácil uso, o PathVisio [17, 18] é um programa mais
voltado para o desenho de vias, sendo o programa de escolha da base de
dados WikiPathways (tanto é possível fazer upload de vias criadas no

PathVisio para o WikiPathways quanto fazer download de vias disponíveis no

WikiPathways para o PathVisio). Já o CellDesigner [19, 20] possui como
diferencial a modelagem de vias.
Formatos
Além dos tradicionais formatos de imagem (PNG, SVG, PDF), vários formatos
foram desenvolvidos para permitir a manipulação automática das vias [21].
Dentre eles, vale destacar os formatos XML-based, tais como o KEGG Markup
Language (KGML) [22], implementado na base de dados KEGG Pathway; o
Graphical Pathway Markup Language (GPML) [23], implementado na base de
dados WikiPathways; o Systems Biology Markup Language (SBML) [24, 25]; e o
Biological Pathways eXchange (BioPAX) [26]. A Figura 2 mostra um trecho do
arquivo GPML correspondente à via de sinalização Notch. É possível notar que
o arquivo GPML contém informações como o nome e a descrição da via, a
espécie a que a via se refere, a anotação das entidades biológicas, dentre
outras. Este tipo de padronização possibilita, por exemplo, encontrar em quais
vias um dado gene/produto gênico está presente ou colorir as vias segundo
um dado critério.
Figura 2. Diagrama e arquivo GPML para a via de sinalização Notch. Adaptado de [27].
Simbologia
Há diversas formas de representar uma via. A Figura 3, por exemplo, mostra
três versões da via glicolítica, via central no metabolismo de carboidratos. A
primeira delas é a representação presente em um livro de bioquímica [28]
(Figura 3), onde os substratos/produtos estão identificados por nome e
estrutura química, as enzimas por números com os respectivos nomes
exibidos à direita, e as reações por setas.

Figura 3. Representação da via glicolítica presente em um livro de bioquímica [28].
Logo após é exibida a representação da mesma via segundo KEGG Pathway

(Figura 4). Neste caso, os círculos simbolizam os compostos químicos e os
retângulos as enzimas (identificadas por seus EC numbers [29]), enquanto as
setas correspondem às reações.

Figura 4. Representação da via glicolítica segundo KEGG Pathway [8, 9, 10].
Já a última versão é do Systems Biology Graphical Notation (SBGN) [30]

(Figura 5), onde as moléculas são mostradas como círculos, as enzimas
como retângulos arredondados associados às reações, e as reações em si
como setas. O SBGN é uma iniciativa no sentido de estabelecer uma
simbologia padronizada para a representação de vias biológicas, o que
facilita, por sua vez, a integração de informações provindas de fontes
distintas. Outra convenção disponível é o Molecular Interaction Map (MIM) [31,
32].

Figura 5. Representação da via glicolítica segundo SBGN [30].
Considerações finais
As vias biológicas cumprem o importante papel de descrever, do ponto de
vista molecular, os sistemas biológicos. Dessa forma, elas ajudam a entender
como estes sistemas funcionam normalmente, e quais alterações ocorrem
em caso de doença, ou até mesmo qual é o impacto de uma droga.
Tradicionalmente, pesquisas envolvendo vias biológicas eram feitas
manualmente e se concentravam em áreas como Bioquímica ou Biologia
Molecular. O estudo das vias a partir da perspectiva da Bioinformática, em
consequência da geração acelerada de dados em larga escala com novas
técnicas moleculares, proporcionou uma melhor e mais eficiente aplicação
do conhecimento biológico consolidado em vias, além da expansão das
bases de dados existentes.
Referências bibliográficas
[1] Ruijtenberg, S., & van den Heuvel, S. (2016). Coordinating cell proliferation
and differentiation: Antagonism between cell cycle regulators and cell type-
specific gene expression. Cell cycle (Georgetown, Tex.), 15(2), 196–212.
https://doi.org/10.1080/15384101.2015.1120925
[2] Michael, G.. (2014, Jan 1st). Biochemical Pathways. Roche. Retrieved from
http://biochemical-pathways.com/
[3] Amit, I., Garber, M., Chevrier, N., Leite, A. P., Donner, Y., Eisenhaure, T.,
Guttman, M., Grenier, J. K., Li, W., Zuk, O., Schubert, L. A., Birditt, B., Shay, T., Goren,
A., Zhang, X., Smith, Z., Deering, R., McDonald, R. C., Cabili, M., Bernstein, B. E., …
Regev, A. (2009). Unbiased reconstruction of a mammalian transcriptional
network mediating pathogen responses. Science (New York, N.Y.), 326(5950),
257–263. https://doi.org/10.1126/science.1179050

[4] Collino, A., Termanini, A., Nicoli, P., Diaferia, G., Polletti, S., Recordati, C.,
Castiglioni, V., Caruso, D., Mitro, N., Natoli, G., & Ghisletti, S. (2018).
Sustained activation of detoxification pathways promotes liver carcinogenesis
in response to chronic bile acid-mediated damage. PLOS Genetics, 14(5).
https://doi.org/10.1371/journal.pgen.1007380
[5] Shah, K. B., Tripathy, S., Suganthi, H., & Rudraiah, M. (2014). Profiling of
Luteal Transcriptome during Prostaglandin F2-Alpha Treatment in Buffalo
Cows: Analysis of Signaling Pathways Associated with Luteolysis. PLoS ONE,
9(8). https://doi.org/10.1371/journal.pone.0104127
[6] Bronson, P. G., Chang, D., Bhangale, T., Seldin, M. F., Ortmann, W., Ferreira, R.
C., Urcelay, E., Pereira, L. F., Martin, J., Plebani, A., Lougaris, V., Friman, V.,
Freiberger, T., Litzman, J., Thon, V., Pan-Hammarström, Q., Hammarström, L.,
Graham, R. R., & Behrens, T. W. (2016). Common variants at PVT1, ATG13–
AMBRA1, AHI1 and CLEC16A are associated with selective IgA deficiency. Nature
Genetics, 48(11), 1425–1429. https://doi.org/10.1038/ng.3675
[7] Fani, R. (2012). The Origin and Evolution of Metabolic Pathways: Why and
How did Primordial Cells Construct Metabolic Routes? Evolution: Education and
Outreach, 5(3), 367–381. https://doi.org/10.1007/s12052-012-0439-5
[8] Kanehisa, M., Furumichi, M., Sato, Y., Ishiguro-Watanabe, M., & Tanabe, M.
(2021). KEGG: integrating viruses and cellular organisms. Nucleic acids
research, 49(D1), D545–D551. https://doi.org/10.1093/nar/gkaa970
[9] Kanehisa M. (2019). Toward understanding the origin and evolution of

cellular organisms. Protein science : a publication of the Protein Society, 28(11),
1947–1951. https://doi.org/10.1002/pro.3715
[10] Kanehisa, M., & Goto, S. (2000). KEGG: kyoto encyclopedia of genes and
genomes. Nucleic acids research, 28(1), 27–30.
https://doi.org/10.1093/nar/28.1.27
[11] Jassal, B., Matthews, L., Viteri, G., Gong, C., Lorente, P., Fabregat, A.,
Sidiropoulos, K., Cook, J., Gillespie, M., Haw, R., Loney, F., May, B., Milacic, M.,
Rothfels, K., Sevilla, C., Shamovsky, V., Shorser, S., Varusai, T., Weiser, J., Wu, G., …
D’Eustachio, P. (2020). The reactome pathway knowledgebase. Nucleic acids
research, 48(D1), D498–D503. https://doi.org/10.1093/nar/gkz1031
[12] Martens, M., Ammar, A., Riutta, A., Waagmeester, A., Slenter, D. N., Hanspers,
K., A Miller, R., Digles, D., Lopes, E. N., Ehrhart, F., Dupuis, L. J., Winckers, L. A., Coort,
S. L., Willighagen, E. L., Evelo, C. T., Pico, A. R., & Kutmon, M. (2021). WikiPathways:
connecting communities. Nucleic acids research, 49(D1), D613–D621.
https://doi.org/10.1093/nar/gkaa1024
[13] Shannon, P., Markiel, A., Ozier, O., Baliga, N. S., Wang, J. T., Ramage, D., Amin,
N., Schwikowski, B., & Ideker, T. (2003). Cytoscape: a software environment for

integrated models of biomolecular interaction networks. Genome research,

13(11), 2498–2504. https://doi.org/10.1101/gr.1239303
[14] Nishida, K., Ono, K., Kanaya, S., & Takahashi, K. (2014). KEGGscape: a
Cytoscape app for pathway data integration. F1000Research, 3, 144.
https://doi.org/10.12688/f1000research.4524.1
[15] Wu, G., Feng, X., & Stein, L. (2010). A human functional protein interaction
network and its application to cancer data analysis. Genome biology, 11(5),
R53. https://doi.org/10.1186/gb-2010-11-5-r53
[16] Kutmon, M., Lotia, S., Evelo, C. T., & Pico, A. R. (2014). WikiPathways App for
Cytoscape: Making biological pathways amenable to network analysis and
visualization. F1000Research, 3, 152.
https://doi.org/10.12688/f1000research.4254.2
[17] Kutmon, M., van Iersel, M. P., Bohler, A., Kelder, T., Nunes, N., Pico, A. R., &
Evelo, C. T. (2015). PathVisio 3: an extendable pathway analysis toolbox. PLoS
computational biology, 11(2), e1004085.
https://doi.org/10.1371/journal.pcbi.1004085
[18] van Iersel, M. P., Kelder, T., Pico, A. R., Hanspers, K., Coort, S., Conklin, B. R., &
Evelo, C. (2008). Presenting and exploring biological pathways with PathVisio.
BMC bioinformatics, 9, 399. https://doi.org/10.1186/1471-2105-9-399
[19] Funahashi, A., Matsuoka, Y., Jouraku, A., Morohashi, M., Kikuchi, N., &
Kitano, H. (2008). CellDesigner 3.5: A Versatile Modeling Tool for Biochemical
Networks. Proceedings of the IEEE, 96(8), 1254–1265.
https://doi.org/10.1109/jproc.2008.925458
[20] Funahashi, A., Morohashi, M., Kitano, H., & Tanimura, N. (2003).
CellDesigner: a process diagram editor for gene-regulatory and biochemical
networks. BIOSILICO, 1(5), 159–162. https://doi.org/10.1016/s1478-5382(03)02370-
9
[21] Viswanathan, G. A., Seto, J., Patil, S., Nudelman, G., & Sealfon, S. C. (2008).
Getting started in biological pathway construction and analysis. PLoS
computational biology, 4(2), e16. https://doi.org/10.1371/journal.pcbi.0040016
[22] Kanehisa Laboratories. (2016, Aug 29) KGML (KEGG Markup Language).
KEGG: Kyoto Encyclopedia of Genes and Genomes. Retrieved from
https://www.kegg.jp/kegg/xml/
[23] Finterly, Riutta, A., Kumar, S., Summer-Kutmon, M., Willighagen, E., & Pico, A..
(2017, Jan 7) PathVisio/GPML. GitHub. Retrieved from
https://github.com/PathVisio/GPML

[24] Keating, S. M., Waltemath, D., König, M., Zhang, F., Dräger, A., Chaouiya, C.,
Bergmann, F. T., Finney, A., Gillespie, C. S., Helikar, T., Hoops, S., Malik-Sheriff, R. S.,
Moodie, S. L., Moraru, I. I., Myers, C. J., Naldi, A., Olivier, B. G., Sahle, S., Schaff, J. C.,
Smith, L. P., … SBML Level 3 Community members (2020). SBML Level 3: an
extensible format for the exchange and reuse of biological models. Molecular
systems biology, 16(8), e9110. https://doi.org/10.15252/msb.20199110
[25] Hucka, M., Finney, A., Sauro, H. M., Bolouri, H., Doyle, J. C., Kitano, H., Arkin, A.
P., Bornstein, B. J., Bray, D., Cornish-Bowden, A., Cuellar, A. A., Dronov, S., Gilles, E.
D., Ginkel, M., Gor, V., Goryanin, I. I., Hedley, W. J., Hodgman, T. C., Hofmeyr, J. H.,
Hunter, P. J., … SBML Forum (2003). The systems biology markup language
(SBML): a medium for representation and exchange of biochemical network
models. Bioinformatics (Oxford, England), 19(4), 524–531.
https://doi.org/10.1093/bioinformatics/btg015
[26] Demir, E., Cary, M. P., Paley, S., Fukuda, K., Lemer, C., Vastrik, I., Wu, G.,
D’Eustachio, P., Schaefer, C., Luciano, J., Schacherer, F., Martinez-Flores, I., Hu, Z.,
Jimenez-Jacinto, V., Joshi-Tope, G., Kandasamy, K., Lopez-Fuentes, A. C., Mi, H.,
Pichler, E., Rodchenkov, I., … Bader, G. D. (2010). The BioPAX community standard
for pathway data sharing. Nature biotechnology, 28(9), 935–942.
https://doi.org/10.1038/nbt.1666
[27] Hanspers, K., Kelder, T., Pico, A., Salomonis, N., Willighagen, E., Weitz, E., &
Ehrhart, F.. (2007, May 22). Notch signaling (Homo sapiens). WikiPathways.
Retrieved from https://www.wikipathways.org/index.php/Pathway:WP268
[28] Nelson, D. L., Cox, M. M.. (2004). Lehninger Principles of Biochemistry (4th
ed.). New York, NY: W. H. Freeman.ISBN 978-0716743392
[29] Webb, E. C. (1992). Enzyme nomenclature 1992: recommendations of the

Nomenclature Committee of the International Union of Biochemistry and
Molecular Biology on the nomenclature and classification of enzymes.
Published for the International Union of Biochemistry and Molecular Biology by
Academic Press. ISBN 978-0-12-227164-9
[30] Le Novère, N., Hucka, M., Mi, H., Moodie, S., Schreiber, F., Sorokin, A., Demir, E.,
Wegner, K., Aladjem, M. I., Wimalaratne, S. M., Bergman, F. T., Gauges, R., Ghazal,
P., Kawaji, H., Li, L., Matsuoka, Y., Villéger, A., Boyd, S. E., Calzone, L., Courtot, M., …
Kitano, H. (2009). The Systems Biology Graphical Notation. Nature
biotechnology, 27(8), 735–741. https://doi.org/10.1038/nbt.1558
[31] Luna, A., Karac, E. I., Sunshine, M., Chang, L., Nussinov, R., Aladjem, M. I., &
Kohn, K. W. (2011). A formal MIM specification and tools for the common
exchange of MIM diagrams: an XML-Based format, an API, and a validation
method. BMC bioinformatics, 12, 167. https://doi.org/10.1186/1471-2105-12-167
[32] Kohn, K. W., Aladjem, M. I., Weinstein, J. N., & Pommier, Y. (2006). Molecular
interaction maps of bioregulatory networks: a general rubric for systems

biology. Molecular biology of the cell, 17(1), 1–13.

https://doi.org/10.1091/mbc.e05-09-0824

13
COMPUTAÇÃO DES TAQ UES
Algoritmos Genéticos
By Rodrigo Kato
9 de abril de 2021
Algoritmos Genéticos
Rodrigo Kato , Vinícius Paiva , Sandro Izidoro
DOI: 10.51780/978-6-599-275326-13
A
lgoritmos Genéticos (AGs) são métodos meta-heurísticos
baseados na teoria de seleção natural de Charles Darwin e
foram inicialmente propostos por J. H. Holland em 1992 [1]. A
Figura 1 ilustra o funcionamento de um AG padrão. AGs são
procedimentos iterativos que evoluem uma população de indivíduos, onde
cada indivíduo representa uma solução candidata para o problema em
questão. A cada iteração, denominada geração, os melhores indivíduos são
selecionados com base em uma função de aptidão (fitness). Operadores
genéticos (cruzamento e mutação) são aplicados aos indivíduos
selecionados, visando produzir novos indivíduos a partir do material genético
de seus pais a partir de uma probabilidade para ser realizada a operação
(pm – probabilidade de mutação e pc – probabilidade de cruzamento). Esse
processo é repetido até que uma condição de parada seja satisfeita,
podendo ser um número definido de gerações, uma detecção de
convergência ou tempo de execução do AG [2; 3]. A Figura 1 apresenta um AG
padrão com seus procedimentos.
Figura 1 – Funcionamento de um Algoritmos Genético padrão.

Fonte: Izidoro et al. (2014

A seguir, são descritos com mais detalhes cada componente de um AG, bem
como a sua execução. Os tópicos abordados são: representação do indivíduo,
população, função de avaliação (fitness), métodos de seleção, operadores
genéticos, parâmetros, condição de parada e a abordagem paralela de AGs.
Representação do indivíduo
A representação de um indivíduo corresponde à primeira etapa da
modelagem de um algoritmo genético. Um indivíduo de um AG é uma
abstração de um indivíduo do mundo real. A definição de um indivíduo
envolve simplificar aspectos do mundo real e representa uma possível
solução para o problema em questão. A modelagem dos indivíduos deve ser
realizada de forma que eles possam ser avaliados, selecionados e
manipulados pelos operadores genéticos, e geralmente são definidos por
especialistas na área [3].
Um indivíduo, ou solução candidata, pode ser representado de acordo com

alguns modelos descritos por Eiben e Smith (2007) [3]: binário, inteiro, real e
permutação. A representação binária é a mais simples, onde um indivíduo
consiste em uma simples string binária de dígitos. O tamanho da string vai
depender do contexto do problema e como se dará o mapeamento do
indivíduo do mundo real para o indivíduo do AG. Um problema dessa
abordagem é que diferentes bits têm diferentes significados e uma simples
alteração em um dos bits (por exemplo, através de uma mutação) pode
trazer resultados muito variados.
A representação do tipo inteiro é uma maneira de definir indivíduos de um AG

quando o problema naturalmente mapeia diferentes genes (características
de um indivíduo) em um elemento de um conjunto.
Uma outra maneira de representar indivíduos de um AG é através de valores

reais ou de ponto flutuante. Essa forma consiste em usar números reais para
compor a string e é utilizada para representar genes com valores contínuos, e
não mais discretos como na representação do tipo inteiro. É útil para
descrever, por exemplo, valores de distâncias, alturas ou pesos.
A representação do tipo permutação é útil para problemas que envolvem

ordenação, como ordenação de tarefas ou problemas de otimização (por
exemplo, o problema do caixeiro viajante). Nessa representação, cada
indivíduo é formado por uma string de números que representam a
sequência para a solução do problema.
População
Um conjunto de indivíduos forma a população de um algoritmo genético.
Essa população contém possíveis soluções para o problema e pode ser
gerada de maneira aleatória ou através de sementes (seeds). Diaz-Gomez e

Hougen (2007) [4] citam uma série de fatores a serem levados em

consideração ao definir uma população inicial gerada aleatoriamente: o
espaço de busca, função fitness, diversidade, dificuldade do problema,
seleção e o número de indivíduos. As populações iniciadas através de
sementes geralmente são criadas a partir de pré-processamento feito com
indivíduos aleatórios, onde os mesmos são avaliados de acordo com a
função fitness. Aqueles mais bem avaliados (melhor pontuação) irão compor
a população inicial [5].
Função de avaliação (fitness)

Uma função de avaliação ou função fitness deve ser capaz de representar os
requisitos necessários a que uma população deve se adaptar a fim de
avançar para a geração seguinte [3]. Todos os indivíduos da população de
cada geração do AG são avaliados por essa função.
É importante que a função fitness seja representativa e possa diferenciar com

precisão os indivíduos (soluções) bons dos ruins. Uma função fitness não
ajustada na avaliação de indivíduos pode acabar descartando um indivíduo
promissor, que poderia ajudar a encontrar soluções melhores para o
problema, além do fato de consumir recursos em indivíduos que agregam
pouco no desenvolvimento do AG.
Funções fitness multi-objetivas levam em consideração diversos aspectos do

problema ao avaliar indivíduos, e podem tratá-los de maneira igualitária ou
dando pesos diferentes para cada um.
Métodos de seleção
A operação de seleção implica em como deverá ser feita a escolha de
indivíduos que formarão descendentes para a próxima geração [6]. O termo
pressão seletiva é muitas vezes usado para mostrar quanto um método de
seleção considera o valor de avaliação de indivíduos [7]. O objetivo da
seleção de um AG é destacar indivíduos mais aptos na população para que
possam gerar descendentes ainda melhores.
Eiben e Smith (2007) [3] citam diversas maneiras de realizar a seleção de

indivíduos de um AG, como: o método da roleta, a seleção baseada no valor
absoluto de fitness, a seleção por torneio e a seleção por ranking. Dentre
esses, o mais usado é a seleção por torneio.
Seleção por roleta

O método da roleta é uma maneira comum de seleção de indivíduos a partir
de seu valor esperado de fitness. Para cada indivíduo é assegurado uma área
da roleta, onde o tamanho dessa área é proporcional ao valor fitness do
indivíduo. A roleta então é girada N vezes, onde N é a quantidade de

indivíduos da população, e ao final de cada vez em que a roleta é girada, o

indivíduo marcado é selecionado para ser um pai na próxima geração [6].
Seleção por fitness

O princípio da seleção por fitness baseia-se em indivíduos que são
selecionados apenas de acordo com o valor absoluto avaliado pela função
fitness. Indivíduos mais aptos tendem a ocupar toda a população de maneira
muito rápida, fazendo com que o processo de busca seja mais focado em
uma região do espaço de busca específica. Dessa forma fica mais difícil para
o AG cobrir todas as possíveis soluções do problema. Esse fenômeno é
conhecido como convergência prematura [3].
Seleção por torneio

A seleção pelo método de torneio requer que um número N de indivíduos
aleatórios sejam selecionados. Depois, um número aleatório R é escolhido
entre 0 e 1. Se R < K (onde K é um parâmetro, como por exemplo 0.75), o
indivíduo mais apto é selecionado, caso contrário o menos apto [6]. Quanto
maior é o valor de K, maior será a pressão seletiva imposta à população.
Seleção por ranking

A seleção feita através do método de ranking classifica os indivíduos com
base em sua fitness e depois são alocadas probabilidades de seleção de
acordo com o ranqueamento (e não em relação ao valor de fitness) [3]. Essa
abordagem evita que a maior parte da seleção seja feita por indivíduos mais
aptos, reduzindo a pressão seletiva. É uma alternativa para evitar a
convergência prematura [6].
Operadores genéticos
Após a seleção de indivíduos, dois operadores genéticos (cruzamento e
mutação) são utilizados para gerar uma nova população (próxima geração
do AG). Esses operadores genéticos têm como finalidade refinar e espalhar a
busca, respectivamente, trazendo também mais variabilidade genética.
O operador de cruzamento utiliza a combinação entre dois indivíduos (aqui

definidos como pais) para gerar indivíduos descendentes (definidos como
filhos) [8].
Basicamente, a operação de cruzamento acontece quando dois indivíduos

são selecionados e partes aleatórias destes são trocadas entre eles,
formando assim novos indivíduos. Pode-se citar três principais formas de
cruzamento: ponto simples (ou um ponto), multiponto (ou k-pontos) e
uniforme.

Cruzamento ponto simples

O cruzamento do tipo ponto simples seleciona dois indivíduos pais para o
cruzamento e seleciona aleatoriamente um ponto Pi nesses indivíduos (onde i
>= 0 e i < n, sendo n o tamanho do indivíduo). Então, dois indivíduos filhos são
criados pela combinação das partes criadas pela divisão dos indivíduos pais
pelo ponto Pi [9]. A Figura 2 mostra um exemplo do cruzamento do tipo um
ponto.
Figura 2 – Funcionamento do cruzamento do tipo um ponto. Fonte: próprio

autor
Cruzamento multiponto
O cruzamento multiponto atua de forma bem similar ao cruzamento de
ponto simples, porém, nesse caso mais de um ponto é criado. O método
seleciona dois indivíduos pais e também seleciona aleatoriamente um valor
de K, que determina os pontos P1i a Pk-1i (onde i >= 0 e i < n, sendo n o
tamanho do indivíduo) que serão os locais onde haverá o cruzamento [10]. A
Figura 3 ilustra o cruzamento multiponto com K = 2.
Figura 3 – Funcionamento do cruzamento multiponto com K = 2.

Fonte: Próprio autor
Cruzamento uniforme
O cruzamento uniforme (Figura 4) usa uma proporção fixa para determinar a
contribuição de cada pai, e essa contribuição ocorre no nível do gene, e não

no nível do segmento. Durante a operação de cruzamento, uma máscara

aleatória de 0 e 1 é gerada conforme a taxa de cruzamento. Para uma taxa de
cruzamento de 0,5, metade dos genes nos filhos seria herdada do pai 1,
enquanto a outra metade seria herdada do pai 2. Os genes que
correspondem ao bit 1 são retirados do pai 1, enquanto os correspondentes a
0 são retirados do pai 2 [11].
Figura 4 – Funcionamento do cruzamento uniforme.

Fonte: Adaptado de Chaudhry e Usman (2017).
Mutação
O operador de mutação ocorre alterando aleatoriamente algumas
características genéticas de certos indivíduos que foram selecionados por
um critério probabilístico [11]. A mutação é uma operação que utiliza apenas
o indivíduo pai para criar o indivíduo filho, aplicando algum tipo de
modificação aleatória em sua representação [3]. Diversos tipos de mutação
são descritos por Soni e Kumar (2014) [12], como: a mutação de inserção, de
inversão e uniforme.
Mutação de inserção
A mutação de inserção (Figura 5) seleciona dois genes aleatórios do
indivíduo e então move o primeiro gene para seguir o segundo, movendo
todos os outros genes de acordo. Esse tipo de mutação não modifica muito a
ordem em que os genes aparecem e é utilizada em problemas de
permutação.

Figura 5 – Funcionamento da mutação de inserção. Fonte:

Próprio autor.
Mutação de inversão
Na mutação de inversão (Figura 6), dois genes aleatórios são escolhidos e
realiza-se a inversão de todos os genes. Isso faz com que seja preservada a
informação adjacente entre os genes, porém, perde-se informação de ordem.
Também é utilizado em problemas de permutação.
Figura 6 – Funcionamento da mutação de inversão. Fonte:

Próprio autor.
Mutação uniforme
Já a mutação uniforme (Figura 7) realiza a mudança de um gene aleatório
de acordo com um valor específico em que esse gene pode assumir. Ou seja,
um gene G escolhido para sofrer a mutação pode receber um valor i, onde i
corresponde a um elemento do conjunto de valores que G pode assumir. Esse
tipo de mutação é usado em casos de representação do tipo real e inteira de
indivíduos.

Figura 7 – Funcionamento da mutação uniforme. Fonte: Próprio

autor.
Parâmetros
Os algoritmos genéticos possuem alguns parâmetros que impactam
diretamente em seu funcionamento. Apesar de haver na literatura valores
padrão recomendados, a configuração de parâmetros é particular no
contexto em que o AG está inserido [2]. Alguns dos parâmetros utilizados nos
AGs são:
Número de gerações: é um dos critérios de parada de um AG. Ao executar

um número muito pequeno de gerações, um AG pode não encontrar uma
resposta satisfatória. Por outro lado, um número de gerações muito
grande pode impactar negativamente no tempo computacional gasto.
Tamanho da população: é a quantidade de indivíduos presentes em cada

geração do AG. Pode ser estática, se mantendo a mesma durante toda a
execução do algoritmo, ou pode sofrer alterações em seu tamanho de
acordo com a execução. Populações maiores tendem a consumir mais
tempo de execução, enquanto populações menores podem acabar não
cobrindo todo o espaço de busca do problema.
Probabilidade de Cruzamento: é um percentual que indica a chance de

um indivíduo trocar material genético com outro dentro da população a
fim de gerar indivíduos descendentes. Tem como finalidade refinar a
busca de indivíduos. AGs com taxas de cruzamento altas tendem a inserir
novas características mais rapidamente à população, porém pode-se
acabar perdendo bons indivíduos que possam ser substituídos. O uso de
operadores de cruzamento com probabilidade alta ou baixa depende do
contexto do problema.
Probabilidade de Mutação: determina a chance de um indivíduo sofrer

alterações em suas características. Tem como finalidade evitar com que o
AG fique preso em mínimos locais, sendo responsável por inserir
diversidade à população. Geralmente, possui taxas baixas, mas como
acontece com o cruzamento, a utilização de taxas altas ou baixas
depende do contexto.
Tamanho do Torneio: é um parâmetro da seleção por torneio que controla

a pressão seletiva, evitando uma convergência precoce do AG. O operador
de torneio trabalha selecionando aleatoriamente N indivíduos da
população e selecionando a melhor solução entre eles para seguir para a
geração seguinte.

Critérios de parada
Existem duas principais formas para o término da execução de um algoritmo
genético [3]. A primeira é em relação às características dos indivíduos que
compõem a solução do problema. Quando é possível identificar um padrão
ótimo em relação aos indivíduos da população, não existe mais a
necessidade de se continuar executando o AG, podendo assim encerrar sua
execução.
A segunda forma de condição de parada de um AG acontece quando não se

sabe identificar um padrão ótimo dos indivíduos. Pode-se citar alguns fatores
que podem fazer com que um AG termine sua execução:
Tempo máximo de execução do algoritmo ou número de gerações é

excedido;
Número total de avaliações feitas pela função fitness é alcançado;
Melhorias em indivíduos feitas através de operadores genéticos e seleção

já alcançaram um certo limite, não havendo mais mudanças.
Geralmente, um AG tem sua execução terminada quando se satisfaz uma das

formas descritas anteriormente: quando um certo valor ótimo (ou
satisfatório) é alcançado pelos indivíduos ou quando uma condição de
parada é satisfeita.
Algoritmos genéticos paralelos

Algoritmos genéticos são uma importante abordagem computacional para
resolver diversos problemas de busca e otimização. Problemas que muitas
vezes estão inseridos em contextos amplos e que por isso acabam
requerendo uma grande quantidade de recursos computacionais. Existem
casos em que executar AGs em máquinas em série pode levar dias ou até
semanas até completar sua execução, e uma abordagem paralela pode
trazer ganhos consideráveis em tempo de execução e utilização de recursos
[13].
Computação paralela diz respeito a vários processos que trabalham

simultaneamente a fim de resolver um determinado problema. O paralelismo
funciona decompondo a carga de trabalho, ou tarefas, entre os vários
recursos computacionais disponíveis, a fim de ter ganhos em relação a
tempo e/ou melhora nos resultados. Abordagens de problemas que utilizam o
paralelismo devem levar em consideração a comunicação entre os
processos, pois muitas vezes apenas ajustar um problema serial não garante
a melhor abordagem paralela [14].
Algoritmos Genéticos têm como característica implícita uma busca

naturalmente paralela por uma solução. Isto se evidencia ao notar-se que
cada indivíduo dentro de uma população busca por si só otimizar sua fitness

[15]. É esta propriedade que permite em uma mesma população, com todos
os indivíduos expostos aos mesmos operadores, o surgimento de soluções
boas diversas. Este fato, atrela o conceito de Algoritmos Genéticos ao
conceito de paralelização, indicando intuitivamente a ideia de um AG
paralelo.
Tendo isso em mente, AGs paralelos trabalham, por exemplo, com problemas
de multi-população, onde vários processos diferentes trabalham de maneira
independente com suas respectivas populações e AG. Ao final de cada
execução paralela ou até mesmo após algumas gerações, processos podem
trocar mensagens entre si, compartilhando e integrando soluções [16].
Embora AGs sequenciais têm mostrado sucesso em diversos contextos e

problemas diferentes, existem casos em que essa abordagem não é o
suficiente, sendo necessário partir para uma implementação paralela do AG.
Pode-se citar como casos em que AGs paralelos são mais vantajosos [17]:
Quando a população é demasiadamente grande;
Quando a função fitness consome muitos recursos (tempo e/ou

memória);
Quando AGs sequenciais caem em regiões subótimas do espaço de

busca.
Existem três classes gerais de AGs paralelos: primário-secundário, granulado-

grosso (ilha) e granulado-fino (célula) [19]. Os AGs paralelos do tipo
primário-secundário utilizam a mesma ideia de um AG sequencial e aplicam
o paralelismo de maneira simples, onde não se altera nem restringe nenhum
dos operadores genéticos. No modelo primário-secundário geralmente
apenas a avaliação de indivíduos pela função fitness é feita de maneira
paralela. Todo o controle de gerações, seleção e operadores de mutação e
cruzamento são feitos de forma serial. Esse tipo de implementação é utilizado
principalmente quando a análise da fitness é complexa e consome muita
carga computacional. Uma desvantagem desse método é que muitas vezes
o processo mestre fica ocioso, esperando pelos outros processos. A Figura 8
ilustra a topologia de um AG paralelo do tipo primário-secundário [19].
Figura 8 – Exemplo de um AG paralelo do tipo primário-

secundário (antigamente denominado como master-slave).
Fonte: Adaptado de Fauzi Mohd Johar et al. (2013).

Um outro tipo de abordagem paralela em AGs é a de granulado-grosso. Essa

forma apresenta uma diferença significativa na modelagem de um AG, pois
trata-se da paralelização de populações, dividindo em subgrupos que são
direcionados a processos diferentes (ilhas). Cada ilha tem seu próprio
processo evolutivo, com suas respectivas gerações e operadores de seleção,
cruzamento e mutação. Os processos trabalham como um AG sequencial,
separadamente, e durante as execuções dos processos, indivíduos de uma
ilha migram para outra a fim de gerar uma variabilidade genética maior [14].
Por último, tem-se os AGs paralelos do tipo granulado-fino ou celular, onde

indivíduos são distribuídos em processos diferentes e as operações de
cruzamento ficam restritas a processos ou células vizinhas. AGs paralelos do
tipo granulado-fino requerem uma topologia bem definida e geralmente
decaem em performance à medida que a população aumenta [19]. Essa é
uma alternativa viável principalmente quando implementada sobre um
dispositivo de processamento SIMD (Single Instruction Multiple Data).

Algoritmos genéticos na bioinformática

Algoritmos genéticos (AGs) são técnicas de otimização estocástica que não
garantem a solução ótima do problema todas as vezes em que são
executados, se tratando assim de um processo não-determinístico. Apesar
disso, existem diversos contextos em que AGs podem ser utilizados, e a
bioinformática é um exemplo.
Deaven e Ho (1995) [20], por exemplo, propuseram um método usando AGs

para determinar a estrutura de menor energia de um cluster atômico. Wild e
Willett (1996) [21], por sua vez, fizeram uma pesquisa de similaridade em
bases de dados de estruturas tridimensionais de produtos químicos,
representados pelos seus campos potenciais eletrostáticos moleculares. Os
autores utilizaram um AG para alinhar os campos moleculares, maximizando
a sua sobreposição.
Jones et al. (1997) [22] descreveram o Genetic Optimisation for Ligand

Docking (GOLD) um método de docking automático de ligantes que utiliza um
AG para explorar toda a gama de flexibilidade conformacional do ligante com
a flexibilidade parcial da proteína.
No ano 2000, Szustakowski e Weng (2000) [23] modelaram um AG para

alinhar estruturas de proteínas. Dado que as estruturas das proteínas são
mais conservadas no núcleo do que nos loops e alças (com exceção dos
loops e alças envolvidos em sítios ativos), a estratégia utilizada foi a de
alinhar os núcleos das proteínas, representados por seus elementos da
estrutura secundária (SSE). Para essa tarefa, um AG foi utilizado para
encontrar a menor diferença entre as matrizes de distância. Quatro anos
mais tarde, de Magalhães et al. (2004) [24] utilizaram AGs para tratar do
problema de docking para proteína-ligante. Nele, o AG trabalha com uma
população de indivíduos, onde cada indivíduo é a posição do ligante com
relação a proteína. Desta forma, a conformação do ligante é representada
por um cromossomo constituído de genes de valores reais representando os
graus de liberdade de orientação e conformação. A função de fitness foi
baseada na interação total de energia entre a proteína e a molécula ligante.
Os resultados mostraram que a distribuição da população inicial pode ser
relevante para a performance do algoritmo.
Ainda em 2004, Unger (2004) [25] apresentou um trabalho discutindo o uso e

os resultados dos AGs em problemas de predição e alinhamento de
estruturas de proteínas. Na predição de estruturas, são tratadas questões
como representação dos indivíduos, função de fitness e operadores
genéticos. Entre as questões discutidas está o problema de colisão entre os
átomos quando um indivíduo é definido como sendo os valores dos ângulos φ
e ψ ao longo da cadeia principal. Dessa forma, as aplicações que usam essa

abordagem devem incluir, de alguma maneira, um procedimento para

detectar essas colisões.
Liu e Tao (2008) [26] propuseram a utilização de AG para a predição de

estrutura de proteínas baseando-se em sua sequência. Os autores utilizaram
valores hidrofóbicos de proteínas como um modelo de otimização
matemático e um AG foi utilizado para resolver o problema de otimização.
Em Fober et al. (2009) [27], os AGs foram usados na construção de

alinhamentos de múltiplos grafos (MGA) para a análise estrutural de
biomoléculas. No trabalho proposto, cada MGA corresponde a uma solução
candidata (indivíduo).
Kernytsky e Rost (2009) [28] utilizaram AGs para o problema de predição de

função com uma abordagem diferente. O indivíduo do AG nessa abordagem
é codificado a partir de informações de resíduo, estrutura secundária,
acessibilidade do solvente, hélice transmembrana e conservação obtidos
através de alinhamentos múltiplos de sequências. O AG seleciona os
indivíduos mais aptos para a próxima geração a partir da avaliação feita por
um algoritmo de aprendizagem baseado em redes neurais.
Kato et al. (2015) [29] implementaram um AG para refinar parâmetros de

campo de força com o objetivo de determinar a energia de RNA. Nessa
abordagem, os nucleotídeos uracila, adenina, guanina ou citosina são
utilizados como referências para os cálculos de mecânica quântica e
clássica, onde as energias de torção (diedro) e a eletrostática são
reparametrizadas.
Otovic et al. (2020) [30] desenvolveram um AG para busca em espaços

químicos de pequenos peptídeos. O trabalho permitiu a definição de
bibliotecas de peptídeos capazes de cobrir uma grande área do espaço de
pesquisa de novos peptídeos ativos.

Genetic active site search (GASS)

Esta seção apresenta com detalhes uma metodologia para a busca de sítios
catalíticos similares através de informações estruturais de proteínas. O
método Genetic Active Site Search (GASS) [2] utiliza um algoritmo genético
(AG) para a busca de sítios catalíticos baseados em templates.
Izidoro et al. (2014) [2] definem o problema de busca baseada em templates

da seguinte forma. Dado um conjunto de N aminoácidos que compõe o sítio
catalítico A de uma enzima de função conhecida (template), e uma proteína
hipotética B com M aminoácidos de função desconhecida, o método procura
o padrão A em B (Figura 9).
Figura 9 – Sítio catalítico de função conhecida (A) – Proteína de

função desconhecida (B). Fonte: Izidoro et al. (2014)
A Figura 10 ilustra o funcionamento do GASS. Proteínas e templates são

selecionados pelo usuário para a etapa de pré-processamento. Nesta etapa
é criado um repositório de proteínas com informações provenientes do
Protein Data Bank (PDB; https://www.rcsb.org) e do M-CSA
(https://www.ebi.ac.uk/thornton-srv/m-csa/), que serão acessados pelo
GASS para criar sua população inicial do AG. Em seguida, o AG executa uma
busca heurística para encontrar os sítios catalíticos similares nas proteínas
selecionadas, produzindo um ou mais sítios catalíticos candidatos. A fim de
lidar com a mutação conservativa, o AG também tem a opção de consultar
uma matriz de substituição de resíduos. A seguir serão apresentados em
maiores detalhes a modelagem e configuração do AG empregado no
método.

Figura 10 – Metodologia para a busca de sítios catalíticos

similares utilizando AGs. Fonte: Izidoro et al. (2014).
Representação do indivíduo e inicialização

da população
A representação de um indivíduo é um ponto muito importante na
modelagem de um AG, e depende muito do conhecimento disponível sobre o
problema a ser resolvido. Para o problema em questão, um indivíduo
representa um grupo de aminoácidos, o qual é um candidato a sítio catalítico
de uma enzima. O indivíduo é codificado como um vetor, onde cada posição
recebe dados sobre um aminoácido, obtidos a partir do repositório de
proteínas criado na fase de pré-processamento.
Assim, para cada aminoácido que pode fazer parte de um sítio catalítico, é
armazenado o seu nome, o nome do último átomo mais pesado na cadeia
lateral (Last Heavy Atom – LHA) e sua posição (x, y, z), a posição do
aminoácido na sequência da enzima e sua cadeia. A Figura 11 mostra um
exemplo de um indivíduo formado por 4 aminoácidos.

Figura 11 – Representação de um indivíduo candidato a sítio catalítico – (A) Indivíduo do

GASS – (B) Sítio catalítico da enzima 3NOS (Human Endothelial Nitric Oxide Synthase with
Arginine Substrate – EC Number: 1.14.13.39) com as distâncias (em Angstroms) entre os
LHAs de cada resíduo. Fonte: Izidoro et al. (2014).
A população inicial é gerada a partir do repositório de dados obtidos na

etapa de pré-processamento. Cada indivíduo é formado por n aminoácidos
que são aleatoriamente escolhidos do repositório, sempre respeitando seus
tipos conforme o template dado, por exemplo, se a primeira posição
requerida é um glutamato, apenas aminoácidos desse tipo poderão ser
selecionados para tal posição.
Função de avaliação (fitness)

Tendo a população inicial, o próximo passo do AG é avaliar os indivíduos. Na
metodologia implementada, a distância entre as coordenadas dos LHAs
representadas por um vetor de coordenadas 3D é calculada para cada par
de resíduos do template (v), e as coordenadas de cada par de resíduos do
sítio ativo candidato encontrado pelo GASS (w), de acordo com a Equação 1,
onde n é igual ao número de resíduos no template e no indivíduo. Quanto
mais próximo de zero o valor do fitness, maior a similaridade, em termos de
distância, entre o template e o sítio candidato.
Equação 1 – Função de avaliação (fitness).
Seleção e operadores genéticos

Após a avaliação dos indivíduos segue-se a fase de seleção. Essa fase é

crucial para a evolução da população, pois dá uma maior chance de
sobrevivência aos melhores indivíduos, por exemplo, aqueles com melhor
fitness. Aqui foi utilizado a seleção por torneio, onde um subconjunto de k
indivíduos é sorteado aleatoriamente da população, e o melhor indivíduo
desse subconjunto de acordo com a fitness é selecionado.
Uma vez feita a seleção, dois operadores genéticos são usados para gerar
uma nova população: cruzamento de um ponto e mutação de um ponto
(Figura 12). No caso da mutação de um ponto, apenas o ponto escolhido é
substituído por um resíduo aleatório, que pode ser do mesmo tipo a partir da
enzima selecionada (TRP 356 trocado pelo TRP 190 – em vermelho na Figura
8), ou por um tipo diferente de resíduo (mutação conservativa), indicado pela
matriz de substituição de resíduos da mesma enzima (GLU 361 trocado pelo
ASP 369 – em azul na Figura 12).
Figura 12 – Representação dos operadores de cruzamento e

mutação. Na representação resumida do indivíduo tem-se o
nome do resíduo, a posição na sequência e a cadeia. Fonte:
Adaptado de Izidoro et al. (2014)
Parâmetros
Um AG possui um conjunto de parâmetros que influencia diretamente o seu
comportamento, e cada problema requer uma configuração particular a
partir de testes e análises de resultados preliminares. Para isso, são utilizados
valores padrões como ponto de partida até a obtenção dos valores finais
para os parâmetros. Os parâmetros do AG – GASS (Tabela 1) foram ajustados
de forma empírica.
Parâmetros Valores
Tamanho da População 400
Número de Gerações 100
Taxa de Cruzamento 90%

Parâmetros Valores
Taxa de Mutação 30%
Taxa de Mutação 10%
Tamanho do Ranking 10
Tamanho do Torneio 2
Tabela 1 – Valores dos parâmetros utilizados no AG – GASS.
Resultados
O GASS foi testado contra os 17 métodos participantes do Critical Assessment
of protein Structure Prediction (CASP 10), na categoria Function Prediction (FN)
[2]. No experimento, o GASS aparece em quarto lugar geral, com valor médio
de MCC (Matthew Correlation Coefficient) de 0,63 (Figura 13). Se comparado
apenas aos métodos automáticos, o GASS aparece em terceiro lugar.
Figura 13 – Grupos participantes do CASP 10 (categoria FN)

classificados em ordem decrescente pelo valor médio de MCC
juntamente com GASS. Preditores humanos são mostrados em
cinza, preditores baseados em servidores em azul e o GASS em
laranja. Fonte: Izidoro et al. (2014).
Considerações finais
Os Algoritmos Genéticos (AGs) não são tão simples quanto parecem, e o
grande desafio está na modelagem do seu problema e no ajuste de seus

parâmetros. Porém eles são considerados muito úteis para resolver

problemas de otimização e/ou problemas onde o espaço de busca é muito
grande.
Neste trabalho foram apresentados os conceitos básicos dos algoritmos

genéticos (padrão e o multiobjetivo), além de diversas aplicações na área de
bioinformática. O que procuramos mostrar aqui é que na área de
bioinformática existem problemas tão complexos que seria proibitivo resolvê-
los em tempo hábil e esse é um dos motivos do surgimento de algoritmos
evolutivos, sendo o AG um deles. Podemos concluir que apesar de algumas
limitações, os AGs são ferramentas alternativas utilizadas para resolver
problemas complexos.

Referências
1- Katoch, S.; Chauhan, S. S. e Kumar, V. (2020). A review on genetic algorithm:
past, present, and future. Multimedia Tools and Applications.
2- Izidoro, S. C.; de Melo-Minardi, R. C. e Pappa, G. L. (2014). GASS: identifying

enzyme active sites with genetic algorithms. Bioinformatics, 31(6):864–870.
3- Eiben, A. E. e Smith, J. E. (2007). Introduction to Evolutionary Computing .

Springer Verlag.
4- Diaz-Gomez, P. A. e Hougen, D. F. (2007). Initial population for genetic

algorithms: A metric approach. In Arabnia, H. R.; Yang, J. Y. e Yang, M. Q.,
editores, Proceedings of the 2007 International Conference on Genetic and
Evolutionary Methods, GEM 2007, June 25-28, 2007, Las Vegas, Nevada, USA, pp.
43–49. CSREA Press.
5- Meadows, B.; Riddle, P.; Skinner, C. e Barley, M. M. (2013). Evaluating the

seeding genetic algorithm. In Cranefield, S. e Nayak, A., editores, AI 2013:
Advances in Artificial Intelligence, pp. 221–227, Cham. Springer International
Publishing.
6- Mitchell, M. (1998). An Introduction to Genetic Algorithms. A Bradford book.

Bradford Books.
7- Camargo, G. d. M. (2006). Controle da pressão seletiva em algoritmo

genético aplicado a otimização de demanda em infra-estrutura aeronáutica.
Master’s thesis, Escola Politécnica, Universidade de São Paulo.
8- Dréo, J.; Chatterjee, A.; Pétrowski, A.; Siarry, P. e Taillard, E. (2006).

Metaheuristics for Hard Optimization: Methods and Case Studies. Springer
Berlin Heidelberg.
10- Umbarkar, A. J. , P. D. S. (2015). Crossover operators in genetic algorithms:a

review. ICTACT Journal on Soft Computing, 6(1):1083–1092.
11- Chaudhry, I. A., e Usman, M. (2017). Integrated process planning and

scheduling using genetic algorithms, Tehnički vjesnik, 24(5), pp. 1401-1409.
https://doi.org/10.17559/TV-20151121212910.
12- Soni, N. e Kumar, T. (2014). Study of various mutation operators in genetic

algorithms. volume 5, pp. 4519–4521.

13- Goldberg, D.; David Edward, G.; Goldberg, D. e Goldberg, V. (1989). Genetic
Algorithms in Search, Optimization, and Machine Learning. Artificial
Intelligence. Addison-Wesley Publishing Company.
14- Umbarkar, A. J. e Joshi, M. S. (2013). Review of parallel genetic algorithm

based on computing paradigm and diversity in search space. ICTACT Journal
on Soft Computing, 3(4):615–622.
15- Madhuri e Deep, K. (2009). A state-of-the-art review of population-based

parallel meta-heuristics. In 2009 World Congress on Nature Biologically
Inspired Computing (NaBIC), pp. 1604–1607.
16- Cantu-Paz, E. (1998). A survey of parallel genetic algorithms. CALCULATEURS

PARALLELES, 10.
17- Majd, A.; Lotfi, S. e Sahebi, G. (2013). Review on parallel evolutionary

computing and introduce three general framework to parallelize all ec
algorithms. The 5th Conference on Information and Knowledge Technology,
pp. 61–66.
18- Nowostawski, M. e Poli, R. (1999). Parallel genetic algorithm taxonomy. In

1999 Third International Conference on Knowledge-Based Intelligent
Information Engineering Systems. Proceedings (Cat. No.99TH8410), pp. 88–92.
19- Fauzi Mohd Johar; Farah Ayuni Azmin; Mohamad Kadim Suaidi;
Shibghatullah, A. S.; Badrul Hisham Ahmad; Siti Nadzirah Salleh; Mohamad
Zoinol Abidin Abd Aziz e Shukor, M. M. (2013). A review of genetic algorithms
and parallel genetic algorithms on graphics processing unit (gpu). In 2013 IEEE
International Conference on Control System, Computing and Engineering, pp.
264–269.
20- Deaven, D. M. e Ho, K. M. (1995). Molecular Geometry Optimization with a

Genetic Algorithm. Phys. Rev. Lett., 75:288-291.
21- Wild, D. J. e Willett, P. (1996). Similarity Searching in Files of Three-

Dimensional Chemical Structures. Alignment of Molecular Electrostatic
Potential Fields with a Genetic Algorithm. J. Chem. Inf. Comput. Sci. , 36 (2):159-
167.
22- Jones, G.; Willett, P.; Glen, R. C.; Leach, A. R. e Taylor, R. (1997). Development
and validation of a genetical gorithm for exible docking. Journal of Molecular
Biology, 267:727-748.
23- Szustakowski, J. D. e Weng, Z. (2000). Protein Structure Alignment Using a

Genetic Algorithm. Proteins: Structure, Function, and Genetics, 38:428-440.

24- de Magalhães, C. S.; Barbosa, H. J. C. e Dardenne, L. E. (2004). A genetic

algorithm for the ligand-protein docking problem. Genetics and Molecular
Biology, 27:605-610.
25- Unger, R. (2004). The Genetic Algorithm Approach to Protein Structure

Prediction. Structure and Bonding , 110:153-175.
26- Liu, Y. e Tao, L. (2008). Protein structure prediction based on an improved

genetic algorithm. In 2008 2nd International Conference on Bioinformatics and
Biomedical Engineering, pp. 577–580.
27- Fober, T.; Mernberger, M.; Klebe, G. e Hüllermeier, E. (2009). Evolutionary

construction of multiple graph alignments for the structural analysis of
biomolecules. Bioinformatics, 25(16):i2110-i2117.
28- Kernytsky, A. e Rost, B. (2009). Using genetic algorithms to select most

predictive protein features. Proteins-Structure Function and Bioinformatics ,
75(1):75-88.
29- Kato, R. B.; Silva, F. T.; Pappa, G. L. e Belchior, J. C. (2015). Genetic algorithms
coupled with quantum mechanics for refinement of force fields for RNA
simulation: a case study of glycosidic torsions in the canonical
ribonucleosides. Phys. Chem. Chem. Phys., 17:2703-2714.
30- Otovic, E.; Njirjak, M.; Zuzic, I.; Kalafatovic, D. e Mausa, G. (2020). Genetic
algorithm parametrization for informed exploration of short peptides chemical
space. In 2020 International Conference on Software, Telecommunications
and Computer Networks (SoftCOM), pp. 1–3.

14
C OM P U TAÇ ÃO
Inteligência Artificial aplicada à Bioinformática

By Joicy Xavier
4 de julho de 2021
Inteligência Artificial aplicada à Bioinformática

Danilo Castro , Paulo Ferreira , Quézia Bernardes , Kaíssa Barbosa , Wandré Veloso
, Pâmela Marinho , Joicymara S. Xavier
DOI: 10.51780/978-6-599-275326-14
N
os últimos anos, a Inteligência Artificial tem sido uma ferramenta
essencial em diversas áreas de estudo e também de mercado.
Suas aplicações vão desde automatização de tarefas humanas,
passando por recomendação de conteúdos até a predição de
eventos futuros. Muitas dessas aplicações têm contribuído com avanços em
pesquisas biológicas e também na medicina. Na Bioinformática, a
Inteligência Artificial vem sendo cada vez mais utilizada, principalmente no
desenvolvimento de aplicações que auxiliam e guiam experimentos diversos.
Este capítulo tem como objetivo apresentar, de forma geral, a história da
Inteligência Artificial focada no Aprendizado de Máquina (Machine Learning),
uma das áreas mais utilizadas por bioinformatas, e também apresentar
alguns dos principais tipos de aprendizado.
Inteligência Artificial: Um breve histórico
AS MÁQUINAS PODEM
PENSAR?
-Alan Turing
Em 1950, Alan Mathison Turing, matemático e cientista da computação,

natural do Reino Unido fez tal questionamento, que viria a impulsionar o
estudo e o desenvolvimento de uma nova área da Computação. Essa área,
que depois de mais de meio século ainda está longe de seu ápice, a
Inteligência Artificial (IA), foi nomeada somente alguns anos após o pontapé
inicial dado por Turing [1]. A IA é a área da Computação que tem como
objetivo o emprego de máquinas em atividades que exigem uma capacidade
de raciocínio. Uma IA é então, uma máquina capaz de executar funções que,
caso fossem executadas por um ser humano, seriam consideradas
inteligentes.

Nas últimas décadas, mesmo sem perceber, diariamente um grande número

de pessoas estão interagindo constantemente com uma IA. Por exemplo,
imagine que uma pessoa em um dia estava interessada em um celular
lançado recentemente no mercado, e usou algum mecanismo de busca na
web para saber um pouco mais sobre o aparelho. Em outro dia, essa mesma
pessoa, navegando por suas redes sociais se depara com anúncios
apresentando ofertas sobre o tal aparelho celular. Essa situação é um
acontecimento bem corriqueiro. Por trás desse acontecimento está uma IA
que tem como objetivo personalizar anúncios na web de forma a melhorar as
vendas de uma empresa, usando dados de navegação, para recomendar o
que interessa ao cliente,e consequentemente, a ela.
Da mesma forma, na Medicina, sistemas de diagnóstico têm utilizado IA para

otimizar filas de espera em leitos de UTIs, monitorar, em tempo real, o quadro
de pacientes graves e em muitas outras aplicações. Nesse sentido, o uso de
Inteligência Artificial tem sido cada vez mais frequente nas mais diversas
áreas de estudo e uma importante ferramenta dentro da sociedade.
Embora estejamos vivendo uma grande expansão atualmente, o surgimento

do estudo de IA não é recente. Os primeiros passos no desenvolvimento de
IAs se deram em 1950 através de Alan Turing. No artigo Computing Machinery
and Intelligence [2], Turing propôs o Jogo da Imitação. Esse jogo, seria
disputado por três indivíduos, entre eles um interrogador, que tem a função
de determinar qual dos outros dois seria uma máquina e qual seria humano.
Caso, durante a interação, a máquina consiga ser confundida com um
humano pelo interrogador, diz-se que essa máquina passou no Teste de
Turing. Até hoje, passar no Teste de Turing é um grande desafio no
desenvolvimento de IAs.
Após Turing, a pesquisa na área de IA foi impulsionada com a realização da

Conferência de Dartmouth [1], em 1956, conforme visto na linha do tempo na
Figura 1, que apresenta os principais eventos no campo de estudo de IA. A
conferência foi idealizada por Marvin Minsky, também cientista da
computação e matemático. Ao fim da conferência, foi definido como objetivo
criar uma máquina capaz de raciocínio, o que chamou a atenção de
investidores.
Figura 1 – Linha do Tempo das origens da IA (Fonte: Autoria própria)

Um ano depois, o psicólogo americano Frank Rosenblatt apresentou ao

mundo o Perceptron, um algoritmo que teria capacidade de simular um
neurônio humano. Entretanto, levando em conta a tecnologia da época, o
modelo desenvolvido apresentava muitas limitações, como foi apontado pelo
próprio Minsky. Somado aos problemas apontados por Minsky, o matemático
James Lighthill em 1973 publicou o documento Artificial Intelligence: A General
Survey [3]. A publicação de Lighthill apontava que pesquisas em IA já
estavam muito caras e não apresentavam retorno satisfatório. Com isso, os
investimentos na área foram cortados, levando ao Primeiro Inverno da IA,
época em que houve um baixo interesse no estudo da área.
Em 1980, surgiu um novo conceito, os Sistemas Especialistas, que realizavam

com maestria uma função em uma área específica. Esses sistemas
impulsionaram novamente as pesquisas. Entretanto, logo apresentaram
problemas relacionados ao custo das tecnologias e foram abandonados,
dando início ao Segundo Inverno da IA.
A era do esquecimento da Inteligência Artificial perdurou até a década de

1990, onde o retorno do interesse na pesquisa foi impulsionado pelo Deep
Blue [4], a primeira máquina a ganhar uma partida de xadrez de um
campeão mundial. Em 1996, Garry Kasparov, enxadrista campeão disputou
uma série de seis partidas contra o Deep Blue, no qual perdeu uma e
empatou duas com a máquina. Já no ano seguinte, a máquina foi capaz de
ganhar duas vezes e empatar três com o campeão, novamente em uma série
de seis partidas. Iniciava-se a Primavera da IA.
Saiba mais…
Para saber um pouco mais dessa história, ouça o Podcast do Escriba Café
que descreve toda essa evolução.
Desde então, diversos avanços no campo da Inteligência Artificial

aconteceram, e é claro, a evolução da tecnologia nos últimos anos contribuiu
para tal. Hoje há um grande interesse na pesquisa e aplicação de IAs em
diferentes áreas, fazendo o uso de diversos modelos desenvolvidos para
realização de diferentes tarefas. Como por exemplo, a predição de
acontecimentos futuros a partir de dados passados e até mesmo o
mapeamento de regiões de interesse a partir de imagens de diferentes
fontes.
Anualmente, a Universidade de Stanford realiza publicações do AI Index

Report, relatando dados relevantes sobre a pesquisa em Inteligência Artificial.
O gráfico apresentado na Figura 2 foi retirado da edição de 2021 [5] e mostra
o crescimento do número de publicações na área a partir do ano 2000. O
crescimento das publicações é notável e, segundo os autores, sinaliza que

podemos estar vivendo o Verão da IA. Os autores observam que entre 2000 e
2019 os artigos publicados na área passaram de 0.8% para 3.8% de todos os
artigos revisados por pares publicados. Vale lembrar que o ano 2000 foi
pouco depois de uma máquina vencer um campeão de xadrez. Ainda, entre
2019 e 2020 houve um aumento de 34,5% no número de publicações , um
crescimento bastante significativo.
Figura 2 – Número de publicações em periódicos científicos sobre IA entre 2000 e 2020.

(Fonte: AI Index Report [5])
As tendências apresentadas no documento mostram que em 2020 houve um

grande investimento na aplicação de IAs para desenvolvimento de fármacos.
O que pode justificar o crescimento na pesquisa, visto o cenário mundial de
uma pandemia. Esse investimento é um bom argumento para se provar
como, depois de tantos contratempos, a Inteligência Artificial se mostra em
ascensão.
Diante do grande crescimento e importância da IA para a Bioinformática e

pesquisas relacionadas, vamos abordar aqui os principais elementos que
podem contribuir para o início dos estudos de quem está ingressando na
área. A IA é uma área com diversas subáreas, então o foco aqui será no
Aprendizado de Máquina (Machine Learning). Nas seções seguintes, veremos
os principais conceitos e algoritmos de forma generalista.
Aprendizado de Máquina: Principais

conceitos e algoritmos
A Inteligência Artificial é uma grande área de estudos, pesquisas, e
aplicações que se subdividem em diversas outras subáreas. O Aprendizado
de Máquina é uma subárea da Inteligência Artificial que se baseia na
premissa de que sistemas podem aprender com dados, identificar padrões e
tomar decisões com o mínimo de intervenção humana.
O Aprendizado de Máquina, ou comumente referido na terminologia em

inglês, Machine Learning, explora o estudo e construção de algoritmos que
podem aprender com seus erros e fazer previsão sobre dados [6]. Essa é uma

área de muita importância e destaque dentro da IA em decorrência do

grande número de benefícios e do impacto que o aprendizado pode gerar.
Quando uma máquina consegue “aprender” e resolver problemas, os
processos de produção e a execução de tarefas tornam-se muito mais
eficientes, rápidas e lucrativas.
O Machine Learning (ML) utiliza técnicas de diversas áreas como estatística,

álgebra, neurociência e teoria da informação para embasar e executar os
processos de treinamento e aprendizagem em si. Esses processos consistem
em, a partir de um conjunto de dados, gerar modelos capazes de representar
as instâncias dos dados de entrada, de forma que esses modelos possam ser
utilizados para a predição e resolução de problemas genéricos.
Os algoritmos de ML podem ser utilizados para diversas tarefas diferentes,

essas tarefas podem ser divididas em tarefas preditivas ou descritivas. As
tarefas preditivas, ou supervisionadas, têm como objetivo processar os
dados de entrada e encontrar um modelo (ou hipótese) que possa ser
utilizado para prever um rótulo (ou classe). Já as tarefas descritivas, ou não-
supervisionadas, consistem em descrever ou classificar um conjunto de
dados de interesse, com base nos dados de entrada [7]. Sendo assim,
podemos dividir as tarefas de ML, basicamente, entre não supervisionadas e
supervisionadas.
Você sabia?
Além dessas duas categorias de aprendizado, há também o aprendizado

por reforço, que visa ensinar a máquina de forma experimental, como um
ser humano aprendendo a executar uma determinada tarefa. Se um bebê
aprende algo novo, os adultos em volta não reforçam o aprendizado
aplaudindo e o incentivando? Então, é essa a ideia! Mas vamos deixar pra
falar dele em outro momento.
Independente do tipo de aprendizado empregado, vamos definir alguns

conceitos-chave presentes em uma atividade de ML padrão. A Figura 3
mostra um exemplo de classificação de uma cesta de frutas: esses são os
nossos dados. Precisamos passar para o modelo de ML alguns atributos (ou
características) que são responsáveis por descrever esse conjunto de dados.
Para esse exemplo, os atributos podem ser: cor, tamanho, peso, acidez, etc.
Ou seja, precisamos extrair dos dados informações que os diferenciem.
Suponhamos que esse modelo de ML seja capaz de diferenciar as frutas

limão e laranja, essas duas classificações serão os nossos rótulos ou classes.
Em algumas terminologias, são utilizadas por padrão as letras X e Y para nos
referirmos aos atributos e às classes, respectivamente.

Figura 3: Exemplo de uma tarefa padrão de classificação. Neste exemplo, os dados

correspondem à cesta de frutas. O objetivo é classificar as frutas em laranjas ou limões.
Um modelo genérico de Machine Learning (ML) recebe os atributos (ou características) de
cada item de dados (representado pela variável X) e também os rótulos associados a eles
(variável Y). Esse algoritmo é treinado até que seja capaz de classificar novos dados
(diferentes daqueles utilizados no treinamento). Ou seja, ao passar os atributos de uma
nova fruta para o modelo de ML treinado, ele deverá ser capaz de dizer se ela é uma
laranja ou um limão. (Fonte: Autoria Própria)
A seguir, faremos um breve resumo de cada um dos principais tipos de

aprendizado: supervisionado e não supervisionado.
Aprendizado Supervisionado
O Aprendizado Supervisionado é utilizado quando o conjunto de dados de
entrada já se encontra rotulado. Ele se subdivide em duas classes diferentes
de métodos: os de classificação e os de regressão. Os métodos de
classificação são utilizados quando os dados de entrada são categóricos e
descritivos (grupos de palavras que caracterizam um dado). Já os de
regressão, são utilizados quando os dados de entrada assumem valores
numéricos (contínuos ou discretos). Números contínuos podem assumir
qualquer valor em um intervalo infinito de valores, como por exemplo, um
valor decimal. Valores discretos assumem valores de um conjunto específico
e limitado de valores, a exemplo de um conjunto binário, que pode assumir
valores iguais a 0 ou 1.
Os algoritmos de classificação compreendem técnicas focadas no processo

de tomada de decisão ou de cálculos probabilísticos. Esses algoritmos são
divididos em tipos de classificadores, que são: Lineares, Vetores, Árvores de
decisão e Coleções. Dentre os principais e mais tradicionais algoritmos de
classificação, se encontram os seguintes: Naïve Bayes, Árvores de decisão e
Support Vector Machine (SVM) [8]. De forma genérica, uma tarefa de
aprendizado supervisionado consiste em: extração de características, seleção
de um modelo (de classificação ou regressão), treinamento, avaliação do
resultado e finalmente a realização da predição e geração da saída (Figura
4).

Figura 4 – Etapas de geração e aplicação de um modelo. (Fonte: Autoria Própria)
A extração de características consiste na preparação do conjunto de dados

a ser utilizado, extraindo as características de interesse de cada item. Após a
extração, segue-se para a escolha do modelo. Nessa etapa, vários
experimentos podem ser conduzidos a fim de descobrir qual algoritmo
melhor se adapta aos dados. A etapa de treinamento tem como objetivo
encontrar uma função ou um padrão que melhor descreva o conjunto de
dados de forma genérica.
Com o modelo ajustado, segue-se então para a avaliação do resultado.

Nessa etapa é verificada qual a performance do modelo treinado para dados
que ele ainda não conhece. Para essa etapa, utilizamos conjuntos diferentes
dos dados para a fase de treino e para a fase de teste do modelo. Por fim,
com o modelo validado, ele já estará apto a ser utilizado para realizar novas
predições.
Algo importante de se observar quando treinamos modelos de aprendizado

supervisionado, usando técnicas de avaliação e amostragem, é a tendência
no super ajuste dos dados. Um modelo com performance boa não é aquele
em que sua métrica atingiu próximo dos 100% na avaliação, e sim o que
consegue se comportar como esperado no mundo real. Existe uma diferença
entre aprender e memorizar!
Existem três situações que podem ocorrer quando se está treinando um

modelo de ML. A primeira, do inglês Underfitting, é quando temos um sub-
ajuste dos dados ao nosso modelo, ou seja, o modelo provavelmente não foi
treinado o suficiente.
A segunda situação é quando há um super ajuste dos dados, do inglês,

Overfitting. Os casos de overfitting são muito prováveis de acontecer quando
ajustamos tanto o nosso modelo que ele decora o conjunto de dados que
estamos usando para treinar. Dessa forma, quando ele precisar lidar com
dados que ainda não conhece, provavelmente vai errar as predições.
O modelo desejado (terceira situação) é o que consegue generalizar a

solução ao ponto de produzir saídas corretas sem memorizar. Dessa forma, o
modelo será extremamente útil para generalizar situações e problemas reais.
Por isso, a avaliação e validação dos modelos é muito importante.
Aprendizado Não Supervisionado

O Aprendizado Não Supervisionado (do inglês Unsupervised Learning),

também conhecido como aprendizado descritivo, é utilizado quando o
conjunto de dados de entrada não está rotulado. O objetivo do Aprendizado
Não Supervisionado é encontrar padrões que descrevam os dados. Para isso,
o algoritmo de aprendizado irá agrupar os dados de entrada conforme
padrões encontrados nos atributos que podem ser medidos através de
estruturas, distância entre as variáveis, etc. No exemplo da cesta de frutas,
mencionado na seção anterior, se ao invés de rótulos para cada um do
conjunto de características, tivéssemos apenas as imagens das frutas, por
exemplo, seria útil utilizar um algoritmo não supervisionado. Nesse caso, a
identificação de laranjas e limões seria feita através da diferenciação das
estruturas, considerando o formato, tamanho e cor da fruta (Figura 5).
Figura 5 – Exemplo de classificação utilizando Aprendizado Não Supervisionado. Nesse

exemplo, os dados correspondem às frutas, porém, não são fornecidos os rótulos para as
entradas de dados. Um algoritmo de Machine Learning (ML) genérico irá receber esses
dados e, através de uma heurística, identificar padrões que os diferencie. Nesse exemplo,
a estrutura que diferencia uma fruta da outra pode ser a cor da casca. (Fonte: Autoria
Própria)
De forma genérica, o Aprendizado Não Supervisionado pode ser de três tipos:

(i) o agrupamento de dados (ou clusterização), onde os dados são divididos
de acordo com a similaridade; (ii) a associação, que busca conectar dados
relacionados; ou (iii) a sumarização de dados, que tem como objetivo
encontrar uma descrição simples e sucinta a partir de um conjunto de dados
maior. Essas técnicas utilizam medidas estatísticas simples, como valor
mínimo, média, desvio padrão, mas também técnicas mais complexas de
visualização e determinação de relações funcionais entre atributos [7]. A
seguir, daremos uma breve introdução à clusterização e à associação por
serem as duas técnicas mais utilizadas.
Agrupamento
No agrupamento ou clusterização (do inglês clustering), o objetivo é
encontrar grupos com base nas características conhecidas (Figura 6). A
máquina escolhe a melhor maneira e divide automaticamente um conjunto
de dados em grupos de acordo com medidas de similaridade ou de
distância. As estruturas de agrupamento podem se associar por localização
(agrupamento de genes de acordo com sua localização nas bibliotecas), por
formato (agrupamento de formatos mecânicos em imagens 3D) ou por
densidade (agrupamento por densidade populacional).

A clusterização normalmente é utilizada na segmentação de mercado para

definir, por exemplo, tipos de consumidores ou a fidelidade. Também é usada
para mesclar pontos em um mapa, na compressão de imagens, para
analisar e rotular novos dados, para detectar comportamento anormal,
dentre outros.
Figura 6 – Exemplo de um algoritmo de agrupamento com uma divisão em três clusters.

(Fonte: Autoria Própria)
Existem várias formas de agrupar objetos, sendo que, cada abordagem utiliza
estruturas ou modelos para descrever os dados [7]. Os algoritmos de
agrupamento mais comuns são: K-means clustering, Mean-shift e DBSCAN.
No K-means, primeiramente, é definido o K que é o número de clusters que

queremos encontrar nos dados. Em seguida é definido o centro desses K
clusters que serão os centróides. De forma resumida, o algoritmo faz essa
atribuição e segue otimizando, diminuindo a distância quadrática total do
centro do cluster até os pontos. Essa etapa se repete até que os centróides
parem de se mover ou, de maneira equivalente, até que os pontos parem de
alternar entre os clusters. No exemplo da Figura 7, foram escolhidos 4 clusters
e, após 11 interações, os centróides foram posicionados definindo 4
associações.
Dica:
Algumas visualizações podem ser executadas em Naftali Harris.

Figura 7 – Funcionamento do k-means com k = 4. Nesse exemplo é possível perceber que

os centróides de cada grupo vão se movimentando e à medida que isso acontece, objetos
dos grupos também são atualizados. O algoritmo k-means inicializa k centroids, sendo k o
número de agrupamentos desejado. A cada iteração, o algoritmo calcula a semelhança
entre cada centroid e os objetos que pertecem àquele agrupamento e cria grupos
relacionando cada objeto com o centroid mais semelhante. Esse processo é repetido até
que não exista mudanças significativas dos elementos em cada grupo. (Fonte: Jadson
Lucio. Introdução ao Aprendizado Não-supervisionado. LICA-UFAL. 2019)
Associação
Na técnica de associação do Aprendizado Não Supervisionado, a procura é
por padrões no fluxo de dados. O objetivo é identificar regras e correlações
de um conjunto de itens que frequentemente ocorrem juntos. Por exemplo,
pessoas que compram carne e pão podem ter interesse em comprar outros
itens para fazer hambúrguer (Figura 8).
Figura 8 – Exemplos de mineração de dados por associação. (Fonte: Autoria Própria)

Os algoritmos baseados em regras de associação normalmente são

utilizados para prever vendas e descontos, analisar mercadorias compradas
em conjunto, colocar produtos nas prateleiras e analisar padrões de
navegação na web. Os algoritmos mais comuns são: Apriori, Eclat e FP-
growth. O Apriori, além de encontrar os termos que são adquiridos de forma
conjunta, também é muito útil para saber quais combinações de termos
podem ser descobertas e qual o nível de interesse nessas combinações [7].
A Bioinformática e a Inteligência Artificial

Como a proposta deste capítulo era fornecer uma breve visão sobre
Inteligência Artificial, apresentamos alguns dos principais conceitos da área,
assim como de Aprendizado de Máquina. A Bioinformática por ser uma área
interdisciplinar e trabalhar com uma grande quantidade de dados, utiliza-se
dos diversos tipos de ferramentas aqui mencionados para manipulação
desses dados.
Não buscamos conduzir você, leitor, direcionando a uma ou outra técnica, e

nem desejamos apresentar todas as possibilidades que você deverá optar ao
se deparar com um problema com dados biológicos. Aqui apresentamos
uma visão geral. Acreditamos que, sem ela, se tornará muito difícil ao
bioinformata conseguir evoluir com sua pesquisa, quando se deparar com
uma grande quantidade de dados, realidade muito comum entre os
pesquisadores da área.
Em termos práticos, aplicações de bioinformática tem evoluído bastante a

partir da utilização de técnicas de Inteligência Artificial. Tarefas como o
alinhamento ou busca de estruturas em um sistema como o PDB (Protein
Data Bank; disponível em https://www.rcsb.org/), que possui quase 180 mil
estruturas biológicas macromoleculares, tendem a utilizar melhor os recursos
computacionais quando há a aplicação de algumas das técnicas aqui
citadas. O que um sistema como esse pode ganhar com a IA? Melhor tempo
de resposta às requisições do usuário, maior organização dos dados além da
realização de novas inferências, possíveis a partir de técnicas de Aprendizado
de Máquina.
A descoberta de fármacos é um exemplo de como a Bioinformática pode se

beneficiar do Aprendizado de Máquina, e vem sendo muito discutido
atualmente. Para lidar com bibliotecas de compostos, como o Zinc
(https://zinc.docking.org/) que contém mais de 750 milhões de compostos,
técnicas para trabalhar com uma quantidade massiva de dados como essa
sempre muito bem-vindas. Sabendo-se que determinados fármacos têm
sido utilizados para tratamento de doenças específicas, a busca por
substâncias semelhantes às conhecidas (descobertas a partir de
agrupamento, por exemplo) permite uma análise inicial que leve a uma
maior eficácia do tratamento ou diminuição dos efeitos colaterais.

Então, o que falta para que o seu próximo problema biológico seja resolvido
em menos tempo com uma solução mais assertiva? Se deseja imergir nesse
mundo, há muita coisa a ser explorada. Busque por conteúdos introdutórios e
comunidades na internet, com certeza isso poderá te ajudar muito no
processo de integração dessas duas áreas tão promissoras.
Referências
[1] MCCARTHY, J.; MINSKY, M. L.; ROCHESTER, N.; SHANNON, C. E.. A Proposal for
the Dartmouth Summer Research Project On Artificial Intelligence. AI
Magazine, Agosto, 1995.
[2] TURING, A. M.. Computing Machinery and Intelligence. Mind, vol. 59, n. 236,
p. 433-460, Outubro, 1950.
[3] LIGHTHILL, James. Artificial Intelligence: A General Survey. In: Artificial

Intelligence: a Paper Symposium. Science Research Council, 1973.
[4] DEEP Blue. IBM 100: Icons of Progress. Disponível em:

<https://www.ibm.com/ibm/history/ibm100/us/en/icons/deepblue/>. Acesso
em: 23 de Junho de 2021.
[5] ZHANG, Daniel et al. The AI Index 2021 Annual Report. AI Index Steering
Committee, Human-Centered AI Institute. Universidade de Stanford, Stanford,
CA. Março, 2021. Disponível em: <https://aiindex.stanford.edu/report/>. Acesso
em: 23 de Junho de 2021.
[6] KOHAVI, Ron; PROVOST, Foster . Glossary of terms. Machine Learning 30:
271–274, 1998.
[7] FACELI, Katti [et al.]. Inteligência Artificial: Uma Abordagem de

Aprendizagem de Máquina. Rio de Janeiro: LTC, 2011.
[8] FURQUIM, Cristiano. 10 Algoritmos de Aprendizagem de

Máquinas(Machine Learning) que você precisa saber. Towards data Science.
Medium, 2017. Disponível em: <https://towardsdatascience.com/10-machine-
learning-algorithms-you-need-to-know-77fb0055fe0>. Acesso em: 15 de
Junho de 2021.

15
C OM P U TAÇ ÃO
Métricas de avaliação em machine learning
Acurácia, sensibilidade, precisão, especificidade e F-score

By Diego Mariano
19 de junho de 2021
Métricas de avaliação em machine learning: acurácia, sensibilidade,

precisão, especificidade e F-score
Diego Mariano
Revisão: Joicymara S. Xavier
DOI: 10.51780/978-6-599-275326-15
A
o construir um classificador usando machine learning, um
desenvolvedor deve se perguntar o quão bom é seu modelo para
predição. Assim, ao treinar um modelo de aprendizagem
algumas métricas podem ser utilizadas para avaliação. A
métrica utilizada para determinação do “melhor modelo” depende do
problema analisado. Neste artigo, veremos as principais métricas para
avaliação de modelos de classificação de dados, como acurácia,
sensibilidade (recall ou revocação), especificidade, precisão e F-score
(Tabela 1).
Método Fórmula
Sensibilidade VP / (VP+FN)
Especificidade VN / (FP+VN)
Acurácia (VP+VN) / N
Precisão VP / (VP+FP)
F-score 2 x (PxS) / (P+S)
Tabela 1. Visão geral das métricas usadas para avaliar métodos de

classificação. VP: verdadeiros positivos; FN: falsos negativos; FP: falsos
positivos; VN: verdadeiros negativos; P: precisão; S: sensibilidade; N: total de
elementos. Fonte: adaptado de Mariano (2019) [1].

Introdução
Um modelo de classificação de dados visa realizar uma previsão com base
em ocorrências passadas. Para isso, o modelo utiliza um conjunto de dados
com entradas (indivíduos) e atributos (propriedades). Além disso, é
necessário conhecer o resultado esperado para esse conjunto de dados
(rótulos). Todas essas informações serão usadas para treinar um modelo que
será utilizado para predizer resultados esperados para novos dados que
surgirem no futuro. Ao treinar esse modelo deve-se utilizar um conjunto de
dados (não usados no treinamento) para testar o quanto o modelo acerta.
Entretanto, não basta apenas contar a quantidade de acertos que seu
modelo teve para dizer se ele é bom ou não. Dependendo do problema
estudado, métricas diferentes devem ser utilizadas para essa avaliação.
Entretanto, antes de apresentarmos essas métricas, precisamos entender
alguns conceitos para classificação binárias: as classes que os dados
preditos poderão receber.
Classes de dados preditos: VP, VN, FP e FN

Em um problema de classificação, há duas soluções possíveis: acerto ou erro.
Entretanto, para um problema de classificação binária temos ainda duas
outras classes possíveis, vamos chamá-las de classes positiva e negativa
(elas podem receber quaisquer nomes). Por exemplo, digamos que
desejamos construir um programa para predizer se irá chover. Os dias de
chuva serão nossa classe positiva. Os dias sem chuva serão nossa classe
negativa. Após construir nosso modelo, vamos usá-lo para predizer se
amanhã poderemos ir à praia. Nosso modelo poderá dizer se irá chover ou
não. No outro dia vamos a praia e observamos se choveu ou não, assim
vemos se o programa acertou ou errou. Logo, há quatro resultados possíveis
(Figura 1):
1. O programa disse que vai chover (positivo) e realmente choveu (predição

verdadeira);
2. O programa disse que vai chover (positivo), mas não choveu (predição
falsa);
3. O programa disse que não vai chover (negativo) e realmente não choveu
(predição verdadeira);
4. O programa disse que não vai chover (negativo), mas choveu (predição
falsa).

Figura 1. Resultados possíveis para um programa que realiza a previsão do tempo. Fonte:
próprio autor.
De acordo com Ferrari & Silva (2017) [2], em problemas de classificação

binária, predições podem ter quatro possíveis classes
Verdadeiro positivo (VP): quando o método diz que a classe é positiva e,

ao verificar a resposta, vê-se que a classe era realmente positiva;
Verdadeiro negativo (VN): quando o método diz que a classe é negativa

e, ao verificar a resposta, vê-se que a classe era realmente negativa;
Falso positivo (FP): quando o método diz que a classe é positiva, mas ao
verificar a resposta, vê-se que a classe era negativa;
Falso negativo (FN): quando o método diz que a classe é negativa, mas
ao verificar a resposta, vê-se que a classe era positiva;
Matriz de confusão
Uma maneira simples de se representar os resultados de um método de
classificação de dados é através da chamada matriz de confusão (Tabela 2).
Tabela 2. Matriz de confusão. Muitos autores costumam utilizar as siglas TP e TN (do inglês
true positive e true negative) como sinônimos para VP e VN, respectivamente. Fonte:
adaptado de Ferrari & Silva (2017) [2].
A matriz de confusão indica a quantidade de ocorrências que o programa

teve para cada uma das quatro categorias.
Para ilustrar isso, digamos que nosso programa de predição de chuva foi
usado durante 100 dias. Dos 100 dias, o programa disse que iria chover em 55
e que não iria chover nos outros 45 dias. Entretanto, após os 100 dias,
percebemos que choveu em 50 e não choveu nos outros 50 dias. Vamos
observar a matriz de confusão dos resultados do nosso programa (Tabela 3):

Tabela 3. Matriz de confusão que avalia o modelo de predição de chuva (n = 100). Fonte:
próprio autor.
Com base nessa tabela, vemos que:
VP = 40: o programa disse que em 40 dos 100 dias iria chover e realmente
choveu.
FP = 15: o programa disse que em 15 dos 100 dias iria chover, mas não
choveu.
FN = 10: o programa disse que em 10 dos 100 dias não iria chover, mas
choveu.
VN = 35: o programa disse que em 35 dos 100 dias não iria chover e
realmente não choveu.
Veja que a soma dos valores dos quatro campos da tabela (VP = 40, FP = 15,
FN = 10, VN = 35) deve ser igual ao total de dias (n = 100). Logo:
n = VP + VN + FP + FN
(1)
Para obtermos o total de predições realizadas em cada classe, podemos

somar os valores presentes em cada coluna. Observe como obtemos o total
de valores preditos como positivos:
predp = VP + FP
(2)
Para obter os valores preditos como negativos, usamos:
predn = VN + FN
(3)
Para obtermos o total de valores reais somamos os valores em cada linha.

Assim, para obter os valores reais positivos, calculamos:
realp = VP + FN
(4)
Para obter os valores reais negativos, calculamos:

realn = VN + FP
(5)
Para calcular acertos do método, usamos:
acertos = VP + VN
(6)
Para calcular os erros, usamos:
erros = FP + FN
(7)
Agora veremos as métricas que podem ser utilizadas para avaliar a

qualidade do classificador. São elas: acurácia, sensibilidade, especificidade,
precisão e F-score [3].
Acurácia
A acurácia (accuracy ou ACC) é considerada uma das métricas mais simples
e importantes. Ela avalia simplesmente o percentual de acertos, ou seja, ela
pode ser obtida pela razão entre a quantidade de acertos e o total de
entradas:
(8)
Utilizando como base a matriz de confusão, podemos obter a acurácia pela

fórmula:
(9)

Sensibilidade
Outra métrica que pode ser utilizada é a sensibilidade (também conhecida
como recall ou revocação). Essa métrica avalia a capacidade do método de
detectar com sucesso resultados classificados como positivos. Ela pode ser
obtida pela equação:
(10)
Especificidade
Por outro lado, a especificidade avalia a capacidade do método de detectar
resultados negativos. Podemos calculá-la usando a equação:
(11)
Precisão
A precisão é uma métrica que avalia a quantidade de verdadeiros positivos
sobre a soma de todos os valores positivos:
(12)
F-score
F–measure, F-score ou score F1 é uma média harmônica calculada com base
na precisão e na revocação. Ela pode ser obtida com base na equação:

(13)
Exemplo: previsão do tempo durante 100 dias

Para o exemplo apresentado anteriormente de um sistema de previsão do
tempo, temos:
n = 100
VP = 40
FP = 15
FN = 10
VN = 35
Vamos então calcular as métricas para nosso sistema de previsão do tempo:
Vemos que nosso sistema possui uma acurácia de 0,75 (ou 75%). Vamos a
seguir analisar a precisão, sensibilidade, especificidade e F-score (F1):
Podemos ver que nosso sistema de previsão de chuva possui como métrica
mais alta a sensibilidade. Entretanto, todas as métricas avaliadas
apresentam um resultado próximo, variando de 0,7 a 0,8.
Curva ROC
A curva ROC, do inglês Receiver Operating Characteristic Curve, ou na
tradução “Curva Característica de Operação do Receptor” é um gráfico que
permite avaliar um classificador binário. Essa visualização leva em
consideração a taxa de verdadeiros positivos (TVP; ou sensibilidade) e a taxa

de falsos positivos (TFP; ou 1 – especificidade). Essas taxas também podem

ser referidas pelas siglas TPR (True Positive Rate) e FPR (False Positive Rate),
respectivamente. Esse gráfico permite comparar diferentes classificadores e
definir qual o melhor com base em diferentes pontos de corte. Na prática,
quanto mais próximo do topo do eixo Y melhor o classificador (Figura 2).
Figura 2. Ilustração de uma curva ROC. O eixo Y armazena a taxa de verdadeiros positivos
(sensibilidade). O eixo X armazena a taxa de falsos positivos (1 – especificidade). O ponto
azul representa um classificador perfeito, isto é, um classificador que atinge 100% de
verdadeiros positivos e 0% de falsos positivos. A linha azul claro indica um resultado
melhor do que os apresentados pelas linhas laranja e verde. A linha tracejada vermelha
indica o limiar aleatório. Resultados abaixo da linha diagonal vermelha são considerados
classificadores ruins. Fonte: adaptado e traduzido de MartinThoma (CC0 1.0 domínio
público).
Uma curva ROC pode ser avaliada pela métrica AUC (Area Under the Curve
ou “área sob a curva”). AUC calcula a área da forma bidimensional formada
abaixo da curva. Essa métrica indica a probabilidade de duas previsões
serem corretamente ranqueadas. A AUC será um valor entre 0 e 1. Quanto
maior esse valor, melhor a capacidade do modelo em separar classes [4].
Quando usar cada uma das métricas

Ao usar machine learning para solução de problemas reais, obviamente
desejamos construir classificadores perfeitos, que sempre acerta, mas no
mundo real quase nunca isso é possível. Assim, ao construir um preditor,
devemos visar o melhor resultado possível. Uma maneira simples de observar
o quão bom é um modelo de classificação é usando a acurácia. A acurácia
pode ser considerada uma métrica que nos dá uma visão geral do resultado,
uma vez que ela mede o total de acertos considerando o total de

observações. Entretanto, outras métricas podem ser importantes

dependendo de como o problema foi modelado.
O uso de cada métrica depende do objetivo do modelo que se deseja criar

[3]. Por exemplo, suponha que desejamos criar um sistema que faça a
detecção automática de spam. Nesse caso, um falso positivo pode ser
considerado um problema mais crítico (uma mensagem importante ser
considerada spam pode causar prejuízos ao usuário do sistema). Logo, a
melhor métrica para comparação entre diferentes sistemas de detecção de
spam seria a precisão.
Agora imagine um sistema que detecta falhas em um avião. Imagine que

uma peça apresenta problemas, mas o sistema indica que não há nada
errado. Isso poderia colocar vidas em perigo. Logo, para este exemplo um
falso negativo seria um problema crítico. Portanto, um sistema construído
para esse propósito deve levar em consideração uma taxa de falsos
negativos próxima a zero. Uma métrica que poderia ser utilizada para
comparar sistemas diferentes seria a sensibilidade. Valores altos de
sensibilidade indicam altos valores de verdadeiros positivos mesmo quando
se leva em conta o total de falsos negativos [3].
Referências
[1] MARIANO, D. C. B. Uso de assinaturas estruturais para proposta de
mutações em enzimas β-glicosidase usadas na produção de
biocombustíveis. 2019.
[2] FERRARI, D. G.; DE CASTRO SILVA, L. N. Introdução a mineração de dados.

[s.l.] Saraiva Educação S.A., 2017.
[3] MARIANO, DIEGO; PAZ, F. J. . Data Mining. 1. ed. Porto Alegre: Sagah, 2020.
[4] Silva, Marcos. Matriz de Confusão e AUC ROC. Data Hackers – Medium.
Disponível em: https://medium.com/data-hackers/matriz-de-
confus%C3%A3o-e-auc-roc-f7e446dca107. 2019.
Este artigo foi originalmente publicado em www.diegomariano.com

16
C OM P U TAÇ ÃO DE S T A Q UE S
Introdução aos bancos de dados biológicos

By Editor-in-chief
23 de junho de 2021
Introdução aos bancos de dados biológicos

Leandro Libório , Victor Hugo Resende
Revisão: Pedro Martins , Diego Mariano
DOI: 10.51780/978-6-599-275326-16
O
conhecimento biológico é armazenado através de bancos de
dados. O fundamento mais importante para a bioinformática
aplicada é a coleta de dados de sequência e suas informações
biológicas associadas [6]. O armazenamento de dados torna-
se necessário diante ao aumento de volume gerado nos últimos anos e da
necessidade de tratamento de informações através de buscas,
processamentos e análises de resultados. Portanto, os bancos de dados
biológicos utilizam aplicações e sistemas gerenciadores de bancos de dados
para manter acessíveis e funcionais as informações de sequências e
anotações genômicas, dados de complexos proteicos e suas interações,
mapas metabólicos, catálogo de espécies ou recursos naturais, dentre outros
exemplos.
Os bancos de dados biológicos têm grande utilidade para a comunidade

científica. Existem diversas aplicações e recursos que funcionam como fontes
de pesquisa e armazenamento. Espera-se encontrar uma série de benefícios
diante ao uso destas aplicações tais como: a informação da localização de
um gene, perspectivas de evolução de organismos, dados de expressão
genética e características fenotípicas, avaliação do uso de fármacos,
interações moleculares e funcionais de proteínas, etc. Há uma lista
considerável de possibilidades e desafios no tratamento de dados biológicos.
Nos próximos tópicos serão abordados maiores detalhes referentes à
classificação destes bancos de dados, de sua estrutura, funcionamento e
exemplos de utilização.
Introdução
Embora o conceito de banco de dados esteja intrinsicamente ligado à
Ciência da Computação, boa parte das atividades do nosso dia a dia
envolvem organização e armazenamento de informações com um objetivo
específico. Neste capítulo, iremos discutir alguns conceitos gerais de banco
de dados e sua importância no contexto da bioinformática.

O que é um banco de dados?

Um banco de dados é uma coleção de dados relacionados que possuem um
significado implícito. Desta maneira, os dados devem ser coerentes e
populados nos registros com o intuito de atender alguma finalidade
específica ligada a algum aspecto do mundo real. Múltiplos usuários finais
realizam transações que devem ser atualizadas e refletidas no banco de
dados [1]. Por exemplo: um site de vendas de produtos esportivos disponibiliza
diversos itens em sua home page. O acesso ao site é realizado por inúmeros
clientes que podem realizar suas compras, e consequentemente atualizam as
informações do banco de dados deste vendedor. A manutenibilidade de
estoque e oferta destes produtos é automatizada através de operações
computacionais por um grupo de programas escritos para esta tarefa.
Sistema de Gerenciamento de Banco de Dados (SGBD)

O Sistema de Gerenciamento de Banco de Dados (SGBD), do inglês Data Base
Management System (DBMS) é um conjunto de programas que gerenciam a
estrutura do banco de dados e controlam o acesso aos dados armazenados.
O SGBD provê entre os usuários e o banco de dados controle de
armazenamento, operações de acesso, compartilhamento, segurança e
organização. Existem diversos softwares gerenciadores de bancos de dados
como Oracle, SQL Server, PostgreSQL, MySQL, Sybase, DB2, entre outros. Do
ponto de vista do gerenciamento real, o SGBD é apenas um dos componentes
do Sistema de Banco de Dados (SBD), que por sua vez é composto de cinco
partes principais: hardware, software, pessoas, procedimentos e dados [2].

Figura 1: Ambiente simplificado do SBD – Sistema de Banco de

Dados. Fonte: Elmasri & Navathe, 2017 [1].
Tipos de SGBDs ou Modelo de Dados

Hierárquico – consiste em registros armazenados em estruturas de dados

em árvore com dois componentes principais: tipo de registro e ligação.
Estes registros são conectados através de ponteiros de forma que cada
registro contém um único valor e cada ligação está relacionada
exatamente a dois registros nesta estrutura que se assemelha a uma
árvore genealógica com subordinações do tipo pai-filho. O acesso a
qualquer registro é feito a partir do registro raiz. Exemplos de bancos de
dados com modelo hierárquico: IMS, Adabas.
Em Rede – baseado no modelo hierárquico adiciona uma extensão das

limitações do tipo anterior. Este modelo permite uma estrutura mais
completa, organizada em uma rede interligada de registros. O acesso do
registro pode ser feito direto ao nó ao invés da necessidade de caminhar a
partir da raiz.
Relacional – proposto em 1970 por Edgar Frank Codd, este modelo é o

mais utilizado atualmente e apresenta conceitos de lógica e teoria de
conjuntos. Os bancos de dados relacionais possibilitam o tratamento e
organização dos dados a partir de relações (tabelas) e das restrições
definidas nestes relacionamentos. As consultas sobre as tabelas são
baseadas na álgebra relacional através da linguagem SQL (Structured
Query Language), conforme veremos com mais detalhes na seção 2.4
deste capítulo. Cada tabela deste modelo é composta por linhas (tuplas)
e colunas (atributos). Os principais SGBDs da atualidade utilizam este
modelo, por exemplo, Oracle, SQL Server, MySQL, PostgreSQL, etc.
Orientado a Objetos – cada informação é armazenada na forma de

objetos através do paradigma de representação dos dados a partir de
abstrações do mundo real. Esse modelo permite maior flexibilidade do que
o modelo relacional diante de dimensionamento de dados complexos e na
integração com linguagens de programação orientadas a objetos como
Python, C++ e Java, por exemplo.
Figura 2: Comparativo entre as representações dos modelos de dados. Fonte: próprio

autor.
O que é SQL?

SQL – Structured Query Language (Linguagem de Consulta Estruturada), é

uma linguagem declarativa e não procedural implementada na IBM Research
como a interface para um Sistema de Banco de Dados relacional
experimental chamado SYSTEM R. É a linguagem padrão dos SGBDs
relacionais comerciais atualmente. Sua padronização é realizada pela
American National Standards Institute (ANSI). SQL é uma linguagem
abrangente que possui instruções para definições de dados (DDL – Data
Definition Language) – criação de esquemas e tabelas; e instruções para
manipulação de dados (DML – Data Manipulation Language) – inserção,
deleção e atualização de registros [1].
Comando DDL:
CREATE TABLE clientes (

cliente_id number(10) NOT NULL,
nome_cliente varchar2(50) NOT NULL,
cidade varchar2(50)
);
O exemplo do comando acima, na linguagem Oracle PL/SQL, representa a

criação de uma tabela clientes que possui três colunas: cliente_id,
nome_cliente e cidade. Os atributos “number” e “varchar” referem-se aos
tipos de dados, valores númericos com até 10 caracteres e valores
alfanuméricos com até 50 caracteres, respectivamente. Já a expressão “NOT
NULL” indica quais as colunas não podem conter valores nulos – cliente_id e
nome_cliente.
Comando DML:
mysql > select * from result_blast limit 10;
O exemplo do comando acima, seleciona todas as colunas (*) da tabela

result_blast e limita o resultado aos 10 primeiros registros encontrados
(cláusula limit 10). Exemplo adaptado de
http://biodados.icb.ufmg.br/cromatina/bacharelado/Manual_aula_MySQL.pd
f.
Bancos de dados biológicos
Classificação dos bancos de dados biológicos

Os bancos de dados biológicos são desenvolvidos para diversos propósitos,
abrangem vários tipos de dados com cobertura heterogênea e são curados
em diferentes níveis e com métodos diferentes, de modo que existem vários
critérios aplicáveis à classificação dos bancos de dados biológicos, como
observamos abaixo:

Escopo da cobertura de dados: abrangentes ou especializados
Nível de curadoria: primários ou secundários
Método de biocuração: curadoria por especialistas ou pela comunidade

científica
Tipo de dados gerenciados: DNA, RNA, proteína, expressão, vias

metabólicas, doenças, entre outros. [4]
Alguns exemplos de bancos de dados biológicos

São exemplos de bancos de dados biológicos [3]:
Bancos de dados de sequências e estruturas: contém dados de

sequências de nucleotídeos, aminoácidos, e de estruturas de proteínas.
Exemplos: GenBank; DDBJ (DNA Data Bank of Japan); PDB (Protein Data
Bank).
Bancos de dados de genomas: embora as sequências de genomas

constituam entradas nos arquivos-padrão de sequência de ácidos
nucleicos, muitas espécies têm bancos de dados especiais que juntam a
sequência do genoma e sua anotação com outros dados relacionados às
espécies. O Genome é o banco de dados do NCBI que armazena estruturas
completas.
Bancos de dados de padrões de expressão e de proteômica: armazenam

as medições dos níveis de mRNA, geralmente por meio das ESTs (Express
Sequence Tag ou Etiquetas de Sequências Expressas – sequências
terminais curtas de cDNA sintetizadas a partir de mRNA) descrevendo
padrões de transcrição de genes. Bancos de dados de proteômica
armazenam medidas realizadas com proteínas, descrevendo padrões de
tradução de genes.
Bancos de dados de vias metabólicas: contém vias metabólicas de uma

variedade de espécies com integração das informações bioquímicas. Um
dos mais importantes e completo banco de dados é o KEGG (Kyoto
Encyclopedia of Genes and Genomes).
Bancos de dados de referências da literatura científica: abrange as

informações de citações, resumos e artigos relacionados às pesquisas
biológicas. Por exemplo, o PubMed, plataforma popular de pesquisa
mantida pelo NCBI.
Outros bancos de dados biológicos

NAR – a revista internacional Nucleic Acids Research publica anualmente
uma lista extensa de bancos de dados de biologia molecular desde o ano
de 1996.
Bancos de dados NCBI – todos os bancos de dados moleculares mantidos

pelo NCBI. Esses bancos de dados estão divididos em 6 grupos principais:
nucleotídeo, proteína, estrutura, taxonomia, genoma e expressão.
Banco de dados EBI – o portal principal de todos os bancos de dados do

EBI dividido em vários grupos, como literatura, microarranjo, nucleotídeo,
proteína, estrutura, caminho e ontologia [9].
Protein Data Bank – principal repositório mundial de estruturas de

proteínas, DNA e RNA.

Formatos de arquivos de dados comuns em

Bioinformática
Formato FASTA: um arquivo no formato FASTA começa com uma linha de
descrição seguida por linhas de dados da sequência. A linha de descrição
é diferenciada dos dados da sequência por um símbolo maior que (“>”) no
início. É recomendável que todas as linhas de texto tenham menos de 80
caracteres. Uma sequência de exemplo no formato FASTA é:
>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)

QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQ
MMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEK
LTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISS
AESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIK
HNPTNTIVYFGRYWSP
Formato EMBL: armazena a sequência e sua anotação juntas. O início da

seção de anotação é marcado por uma linha que começa com a palavra
“ID”. A seção de início da sequência é marcada por uma linha que começa
com a palavra “SQ”. A linha “//” (terminador) também não contém dados
ou comentários e designa o final de uma entrada. O arquivo EMBL pode
terminar com a extensão .embl ou .txt.
PDBx/mmCIF: é o formato padrão de arquivos do wwPDB (World Wide

Protein Data Bank). Armazenam informações de estruturas de
biomoléculas.
GFF: O formato GFF (General Feature Format) é um tipo de arquivo

delimitado por tabulação que descreve genes e outras características de
sequência de DNA, RNA e proteínas.
GTF: General Transfer Format – idêntico à versão GFF2.
SAM: Sequence Alingment Map – armazenam sequências biológicas

alinhadas a uma sequência de referência. O formato SAM consiste em
uma seção de cabeçalho e uma seção de alinhamento. As linhas na
seção de cabeçalho começam com o caractere ‘@’ e as linhas na seção
de alinhamento não. Todas as linhas são delimitadas por TAB. [13]
PIR: uma sequência no formato PIR consiste em: uma linha começando
com um sinal “>” (maior que), seguida por um código de duas letras que
descreve o tipo de sequência (P1, F1, DL, DC, RL, RC ou XX) , seguido por um
ponto e vírgula, seguido pelo código de identificação de sequência (o
código de identificação do banco de dados). Uma linha contendo uma
descrição textual da sequência. Uma ou mais linhas contendo a própria
sequência. O final da sequência é marcado com um caractere “*”
(asterisco). O formato PIR também é conhecido como formato NBRF [14].
Exemplo de Formato PIR:
>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN)
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
SDVPERSIPI TREEKPAIAG AQRK*
Tutorial de exemplo de busca no GenBank

Agora, para ilustrar o uso de banco de dados biológicos vamos apresentar

um breve tutorial de acesso ao banco de dados GenBank. Inicialmente, faça
acesso à página inicial de pesquisa: https://www.ncbi.nlm.nih.gov/genbank/.
Figura 3: Página inicial do GenBank. Fonte: próprio autor.
Existem várias maneiras de pesquisar e recuperar dados do GenBank. Neste

exemplo, iremos buscar as informações de sequências para a proteína P53
em Homo Sapiens.
Figura 4: Campo de busca no GenBank. Fonte: próprio autor.
Abaixo estão os resultados da pesquisa. A lista ao lado direito “Results by

taxon” mostra o número de resultados retornados por espécie. A busca
também pode ser realizada informando os identificadores Accession e GI
number. Nesta consulta, o resultado recuperado foi de 22783 registros.
Figura 5: Resultados da consulta realizada. Fonte: próprio autor.
Também podemos analisar os registros recuperados detalhando-os no

formato do GenBank, FASTA ou Graphics.

Figura 6: Exemplo de um resultado detalhado – formato de arquivo do GenBank. Temos a

descrição, informações das publicações de artigos relacionados, a sequência de
nucleotídeos, regiões codificadores de proteínas – CDS (Coding Sequence), etc. Fonte:
próprio autor.
É possível realizar o download do arquivo conforme o formato desejado

selecionando a opção “Send to”, marcando o botão de opção “Choose
Destination: File” e em seguida basta clicar em “Create File”.
(A)
(B)
(C)

Figura 7: (A) Download do arquivo no formato GenBank. (B) Seleção da visualização do

registro localizado no formato FASTA. (C) Visualização da sequência – Graphics. Fonte:
próprio autor.
Um pouco mais sobre o PDB

O PDB “Protein Data Bank” é um banco de dados de estruturas obtidas através
de experimentos de difração de raios-X e de nêutrons em cristais e de
Ressonância Magnética Nuclear (RMN) de milhares de proteínas [7],
tornando-se o maior repositório mundial de informações sobre a estrutura 3D
de grandes moléculas biológicas, incluindo os ácido nucleicos. Esse banco
apresentava em 20 de abril de 2020 o total de 162.816 arquivos com estruturas
de macromoléculas.
Um arquivo de estrutura ou arquivos PDB são representados em um formato

específico e padronizado, chamado formato PDB. Esses arquivos são
utilizados em programas de modelagem e visualização molecular. Um
arquivo PDB pode ser dividido em duas partes principais, a primeira contém
informações e detalhes sobre a estrutura e a segunda contém as
coordenadas dos átomos. Na primeira seção, informações tais como o
método utilizado para resolver a estrutura da proteína, o nome dos autores
que resolveram a estrutura, nome da macromolécula e a lista de cadeias
disponíveis na estrutura, informações sobre as estruturas secundárias, entre
tantas outras informações estão disponíveis. A segunda seção contém
informações relativas às coordenadas dos átomos da proteína e dos ligantes
(registros chamados de ATOM e HETATM), e informações sobre ligações
covalentes e conexões entre átomos (registros chamados de CONECT). A
partir destas coordenadas, é possível calcular os tipos atômicos e interações
envolvidas entre proteínas e seus ligantes [8].
Referências do capítulo
[1] ELMASRI, Ramez; NAVATHE, Sham. Fundamentals of database systems.
Pearson, 2017.
[2] ROB, Peter; CORONEL, Carlos. Sistemas de banco de dados: Projeto,

implementação e gerenciamento. Cengage Learning, 2014.

[3] LESK, Arthur M. Introdução à Bioinformática. 2.ed. Artmed, 2008.
[4] Zou, Dong et al. “Biological databases for human research.” Genomics,
proteomics & bioinformatics vol. 13,1 (2015): 55-63. doi:10.1016/j.gpb.2015.01.006
[5] HARISHA, Sharma. Fundamentals of Bioinformatics. IK International Pvt Ltd,

2010.
[6] SELZER, Paul M.; MARHÖFER, Richard J.; ROHWER, Andreas. Applied
bioinformatics. An introduction–Springer, Verlag, Berlin, Heidelberg,
Germany, v. 260, 2008.
[7] https://www.rcsb.org/
[8] https://www.wwpdb.org/documentation/file-format
[9] JIANG, Rui; ZHANG, Xuegong; ZHANG, Michael Q. Basics of Bioinformatics.

Springer-Verlag Berlin An, 2016.
[10] https://blast.ncbi.nlm.nih.gov/Blast.cgi?
CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp
[11] http://scikit-bio.org/docs/0.5.2/generated/skbio.io.format.embl.html
[12] https://www.ensembl.org/info/website/upload/gff.html
[13] Li, Heng et al. “The Sequence Alignment/Map format and SAMtools.”
Bioinformatics (Oxford, England) vol. 25,16 (2009): 2078-9.
doi:10.1093/bioinformatics/btp352
[14] http://www.bioinformatics.nl/tools/crab_pir.html
[15] https://br.ccm.net/contents/66-o-que-e-o-sistema-de-gerenciamento-
de-bancos-de-dados

17
C OM P U TAÇ ÃO
Biopython: manipulando dados biológicos

usando Python e Colab
By Diego Mariano
4 de julho de 2021
Biopython: uma breve introdução à manipulação de dados biológicos em

Python usando Colab
Diego Mariano
Revisão: Joicymara S. Xavier
DOI: 10.51780/978-6-599-275326-17
N
este artigo, será apresentada uma breve introdução prática a
manipulação de dados biológicos usando Biopython. Para
implementação dos exemplos, iremos utilizar a plataforma
Colab do Google Research.
Introdução
Biopython é uma biblioteca Python para análise de dados biológicos [1].
Biopython possui um conjunto de classes e métodos para análises de
alinhamentos de sequências, estruturas de proteínas, consulta de bancos de
dados biológicos, genética de populações, filogenia, dentre muitas outras
funcionalidades[2]. A biblioteca pode ser baixada em https://biopython.org/.
Para construir códigos com Biopython usaremos a plataforma gratuita do

Colaboratory, também conhecido como Colab. Colab permite a edição de
código Python diretamente de um navegador por meio de um ambiente
interativo baseado no Jupyter notebook. Colab pode ser acessado em
https://colab.research.google.com/ e requer um conta gratuita Google para
acesso.

Figura 1. Página inicial do Colab. As células ao centro são usadas para inserção do código.
Iniciando o Biopython
Para utilizar a biblioteca Biopython, deve-se inicialmente verificar se ela está
instalada. Para isso, basta importar a biblioteca com o comando:
import Bio
Caso Biopython não esteja instalado, você verá uma mensagem parecida
com esta:
---------------------------------------------------------------
ModuleNotFoundError: Traceback (most recent call last)
<ipython-input> in <module>()
----> 1 import Bio
ModuleNotFoundError: No module named 'Bio'
---------------------------------------------------------------
Você pode instalá-lo no Colab usando o comando:
!pip3 install biopython
Para verificar se a instalação foi realizada com sucesso, tente importar o

módulo novamente. Se nenhuma mensagem for exibida, isso quer dizer que o
Biopython está instalado corretamente.
Manipulando sequências
Uma das funções básicas do Biopython é a análise de sequências. Para isso, é
necessário importar o módulo Seq com o comando:
# Manipulação básica de sequências

from Bio.Seq import Seq
Em Biopython, sequências devem ser declaradas com o método Seq( ):
# Declarando uma sequência
seq1 = Seq("ACGTAGCTACGATCACAGCTA")
print("Minha sequência é", seq1)
Minha sequência é ACGTAGCTACGATCACAGCTA
Após declarada, a sequência pode ser manipulada como um objeto do tipo

Seq. Observe por exemplo, como obter o reverso complementar da sequência
declarada anteriormente:
# Reverso complementar
rc = seq1.reverse_complement()
print("O reverso complementar é", rc)
O reverso complementar é TAGCTGTGATCGTAGCTACGT
Podemos ainda obter a sequência transcrita chamando o método

transcribe():
# Transcrição
rna = seq1.transcribe()
print("A sequência transcrita é", rna)
A sequência transcrita é ACGUAGCUACGAUCACAGCUA
Por fim, podemos obter a sequência de aminoácidos a partir da tradução da

sequência:
# Tradução
protein = seq1.translate()
print("A sequência da proteína é", protein)
A sequência da proteína é T*LRSQL
Operações básicas com sequências

Podemos realizar operações básicas com objetos do tipo Seq como se
fossem do tipo string. Observe, por exemplo, como realizar buscas de
fragmentos de sequências dentro de uma sequência:

# Buscar substrings
print("Buscando a substring TACGA na variável seq1:")
print(seq1.count('TACGA'))
Buscando a substring TACGA na variável seq1 : 1
Podemos ainda reverter sequências da mesma forma que revertemos strings

usando seq1[::-1].
# Reverter sequência
print("Reverter sequência")
print("Original:", seq1)
print("Reversa:", seq1[::-1])
Reverter sequência
Original: ACGTAGCTACGATCACAGCTA
Reversa: ATCGACACTAGCATCGATGCA
Nesse caso, os valores inseridos em colchetes indicam:
[posição de início : posição final : passo]
Como os valores de posição de início e fim foram deixados em branco, todas

as letras da string são utilizadas. O valor de passo -1 indica que a sequência
deve receber o valor reverso.
Podemos ainda obter o índice de cada base usando a função nativa do

Python enumerate( ):
# Obtendo índices dos nucleotídeos da sequência
print("Obtendo índices dos nucleotídeos da sequência")
for i, n in enumerate(seq1):
print(i, n)
Obtendo índices dos nucleotídeos 9 C
da sequência
10 G
0 A
11 A
1 C
12 T
2 G
13 C
3 T
14 A
4 A
15 C
5 G
16 A
6 C
17 G
7 T
18 C
8 A

19 T
20 A
Caso seja necessário, podemos converter objetos de sequência em strings

usando o método str(). Para testar isso, vamos criar uma nova variável
chamada seq2:
# Converter objetos de sequência em strings
print("Convertendo objetos Seq em strings")
seq2 = str(seq1)
print(type(seq2))
Convertendo objetos Seq em strings
<class 'str'>
Podemos converter a string em um objeto de sequência do Biopython usando

o método Seq():
seq2 = Seq(seq2)
print(type(seq2))
<class 'Bio.Seq.Seq'>
Concatenando sequências
Podemos unir sequência usando o operador de concatenação (+):
# Concatenar
print("Unindo strings")
seqs = seq1 + seq2
print(seqs)
print(type(seqs))
Unindo strings
ACGTAGCTACGATCACAGCTAACGTAGCTACGATCACAGCTA
<class 'Bio.Seq.Seq'>
Comparando objetos de sequência

Podemos ainda comparar objetos de sequência usando o operador de
igualdade (==):
# verificando se strings são iguais

print("Comparando sequências")
seq1 == seq2
Comparando sequências
True
Conteúdo GC
O conteúdo GC indica o percentual de bases nitrogenadas que são guanina
ou citosina. Em uma molécula de DNA, o par guanina-citosina realiza três
ligações de hidrogênio, em contrapartida ao par adenina-timina, que realiza
apenas duas. Logo, moléculas com maior conteúdo GC tendem a ter uma
maior estabilidade. Observe como obter o conteúdo GC usando Biopython:
# importando método que calcula conteúdo GC
from Bio.SeqUtils import GC
print("Conteúdo GC")
print(GC(seq1))
Conteúdo GC
47.61904761904762
Manipulando arquivos
A manipulação de arquivos é uma tarefa fundamental em bioinformática.
Uma das formas mais comuns para armazenamento de sequências é o
denominado formato FASTA. Nesse formato, uma sequência única ou várias
sequências (formato Multi-FASTA) são gravadas em um arquivo de texto.
Cada sequência é indicada por um cabeçalho iniiciado pelo símbolo de
maior ( > ). Veja um exemplo:
> Cabeçalho da sequência 1
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCG
> Cabeçalho da sequência 2
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
Podemos ler e gravar em arquivos usando o módulo SeqIO, mas primeiro, é

necessário enviar os arquivos para o Colab.
No Colab, arquivos podem ser enviados por meio da aba “arquivos” no menu
lateral esquerdo:

Figura 2. Enviando arquivos para o Colab. Clique na aba

“arquivos” e depois em “fazer upload para
armazenamento da sessão”.
Como exemplo, vamos analisar a sequência de uma lisozima (disponível em

https://www.uniprot.org/uniprot/P00720.fasta).
>sp|P00720|ENLYS_BPT4 Endolysin OS=Enterobacteria phage T4 OX=10665

MNIFEMLRIDERLRLKIYKDTEGYYTIGIGHLLTKSPSLNAAKSELDKAIGRNCNGVITK
DEAEKLFNQDVDAAVRGILRNAKLKPVYDSLDAVRRCALINMVFQMGETGVAGFTNSLRM
LQQKRWDEAAVNLAKSIWYNQTPNRAKRVITTFRTGTWDAYKNL
Vamos salvar esse arquivo com o nome seq.fasta e, a seguir, analisar esse
arquivo com o Biopython. Como exemplo, vamos abrir esse arquivo FASTA,
copiar a sequência e salvar em um outro arquivo denominado seq2.fasta.
Entretanto, vamos alterar o cabeçalho, usando expressões regulares, para
que apenas o código UNIPROT da sequência seja salvo. Para isso,
precisaremos do módulo re:
# GRAVANDO ARQUIVOS
1 # Importando o método SeqIO
2
3 from Bio import SeqIO
4 from Bio.SeqRecord import SeqRecord
5 import re
6
7 gravar = []
8
9 for i in SeqIO.parse("seq.fasta", "fasta"):
10 nome = i.id
11 descricao = i.description
12 seq = i.seq
13
14 # coletando o id do uniprot
15
16 id_uniprot = re.findall('\|.*\|', descricao)
17 id_uniprot = id_uniprot[0].replace("|", "")
18
19 # seqrecord

20
21 aux = SeqRecord(
22 seq,
23 id = id_uniprot,
24 description=""
25 )
26 gravar.append(aux)
27
28 # criando um novo arquivo fasta
29
30 SeqIO.write(
31 gravar,
32 "seq2.fasta",
33 "fasta"
34 )
Ao executar esse código, o arquivo seq2.fasta será salvo no mesmo diretório.

O Colab permite que você abra arquivos de texto diretamente na interface.
Note que a única diferença entre os arquivos será o cabeçalho.
Figura 3. Ao executar o código, um novo arquivo será exibido no mesmo diretório.
Bioinformática estrutural de proteínas

Biopython fornece o módulo Bio.PDB que permite a leitura e manipulação de
estruturas de proteínas diretamente do Protein Data Bank (PDB). Para isso,
deve-se inicialmente importar o módulo Bio.PDB com o código:
from Bio.PDB import *
Fazendo o download de um arquivo PDB

Podemos fazer o download de arquivos diretamente do PDB usando o método
retrieve_pdb_file() e informando o código identificador de quatro dígitos.
Entretanto, deve-se incialmente obter a lista atualizada de arquivos do PDB
usando o comando PDBList(). Observe como realizar o download da estrutura
da proteína beta-glicosidase de PDB ID 4MDP.
from Bio.PDB import *
pdb = PDBList()

pdb.retrieve_pdb_file('4MDP')
WARNING: The default download format has changed from PDB to

PDBx/mmCif
Downloading PDB structure '4MDP'...
'/content/md/4mdp.cif'
Por padrão, o Biopython retorna um arquivo no formato PDBx/mmCif

(extensão .cif ).
Calculando a distância Euclidiana entre dois átomos

Agora que já realizamos o download de um arquivo de estrutura de proteína,
vamos realizar algumas análises básicas nesse arquivo usando Biopython. No
exemplo a seguir, vamos “navegar” pela estrutura da proteína, passando
pelos modelos disponíveis, pelas cadeias, resíduos e, por fim, por cada átomo.
Vamos ainda calcular a distância Euclidiana entre dois átomos. Para ilustrar
vamos usar os carbonos-alfa dos resíduos 475 e 476:
# Distância Euclidiana entre átomos com Biopython
1 from Bio.PDB import *
2
3 parser = MMCIFParser()
4 estrutura = parser.get_structure('4mdp', 'md/4mdp.cif')
5
6 print(estrutura)
7
8 # estrutura -> modelos -> cadeias -> resíduos -> átomos
9
10 for modelo in estrutura:
11 print(modelo)
12 for cadeia in modelo:
13 print(cadeia)
14 for residuo in cadeia:
15 nome = residuo.get_resname()
16 if nome != 'HOH':
17 print(nome, residuo.id[1])
18
19 # Detalhes dos átomos
20
21 #for atomo in residuo:
22
23 #print(atomo.id) # id
24
25 #print(atomo.coord) # coordenadas x, y, z
26
27
28
29 # distancia euclidiana entre lys 475 e leu 468 - ca
30
31 R1 = estrutura[0]['A'][475]['CA']
32 R2 = estrutura[0]['A'][476]['CA']
33

34 distancia = R1 - R2
35
36 print(distancia, 'angstrons')
<Structure id=4mdp>
ASP 470
<Model id=0>
SER 471
<Chain id=A>
LEU 472
SER 0
ILE 473
MET 1
ARG 474
SER 2
LYS 475
LEU 3
GLU 476
PRO 4
BGC 501
PRO 5
PEG 502
ASP 6
PEG 503
PHE 7
PEG 504
LYS 8
PO4 505
TRP 9
PO4 506
GLY 10
GOL 507
[...]
3.8726804 angstrons
Observe que as linhas que exibem detalhes dos átomos foram comentadas.
Isso foi feito apenas para facilitar a visualização do resultado final. Caso o
símbolo de comentário ( # ) seja removido dessas linhas, informações dos
átomos, como o código identificador do átomo e suas coordenadas, seriam
exibidas abaixo de cada resíduo.
Conclusão
Biopython permite diversos tipos de análise de dados biológicos. Aqui,
apresentou-se uma breve introdução com alguns exemplos práticos. Foi
ainda utilizado o ambiente do Colab para edição de código por meio de um
navegador. Para mais informações acesse o site oficial do Biopython:
https://biopython.org.
Material suplementar
Códigos-fonte disponíveis aqui:
https://colab.research.google.com/drive/1axvhu7yR4CLw-
7uSQX59XdwWvce_CYOs?usp=sharing
Referências

1. Cock PJA, Antao T, Chang JT, Chapman BA, Cox CJ, Dalke A, et al.
Biopython: freely available Python tools for computational molecular
biology and bioinformatics. Bioinformatics. 2009;25:1422–3.
doi:10.1093/bioinformatics/btp163. ↑
2. Mariano DCB, Barroso JRP de M, Correia TS, Melo-Minardi RC de. Introdução

à Programação para Bioinformática com Biopython. 3rd edition.
CreateSpace Independent Publishing Platform; 2015. Disponível em:
https://diegomariano.com/introducao-a-programacao-para-
bioinformatica-com-biopython/ ↑

18
DES TAQ UE S ENSINO
Liga Brasileira de Bioinformática

By Sheila Nagamatsu
28 de maio de 2021
Liga Brasileira de Bioinformática: Desafios para estimular a formação de estudantes

de Bioinformática e Biologia Computacional
Sheila Tiemi Nagamatsu , Mayla Abrahim Costa , Renato Augusto Corrêa dos
Santos , Lucas Miguel de Carvalho , Neli José da Fonseca Júnior , Vinicios
Henrique da Silva , Deivid Almeida de Jesus , Flávia Figueira Aburjaile , Glen
Jasper Yupanqui García , Gustavo Garcia Pereira , Alice Barros Câmara , Maira
Rodrigues de Camargo Neves , Mônica Pereira Coelho , Elvira C.A. Horácio
DOI: 10.51780/978-6-599-275326-18
A
Liga Brasileira de Bioinformática (LBB) é uma competição de
bioinformática que visa albergar as diferentes
multidisciplinaridades que a área compõe, sendo a primeira
competição da América Latina neste setor. As competições
colaborativas têm papel importante ao promover a comunicação
interpessoal, e o trabalho em equipe, sendo incentivada durante a LBB a
formação de equipes com diferentes formações acadêmicas. A LBB se
apresenta em três fases: 1) composta por 60 questões de múltipla-escolha
nas áreas de biologia, computação e bioinformática; 2) com cinco desafios
para resolução de problemas de biologia computacional; e 3) em que as três
equipes finalistas são selecionadas para desenvolvimento de um projeto
científico, com apresentação escrita e oral. Na 2ª Edição da LBB, serão
implementados webinar e networking com o intuito de promover o
aperfeiçoamento e o aprendizado sobre temas importantes para a
bioinformática e biologia computacional. Portanto, a LBB 2ª Edição se
apresenta como uma grande oportunidade para participantes testarem seus
conhecimentos, aprenderem, aumentarem sua rede de contatos com
pessoas interessadas na área e complementarem sua formação acadêmica.
Inscrições em https://lbb.ime.usp.br.
Introdução
A bioinformática é um campo multidisciplinar, e demanda que os
profissionais da área apresentem habilidades interdisciplinares em tópicos
como computação, biologia, estatística e matemática. Além disso, é
extremamente importante o desenvolvimento de habilidades de colaboração
e comunicação, para que esses profissionais possam aplicar esses
conhecimentos na resolução de problemas de bioinformática, como a

análise e a modelagem de dados biológicos [1]. Dada a escassez de

profissionais especializados em resolução de diversos problemas em biologia
computacional, competições têm auxiliado o desenvolvimento da área, visto
que elas incentivam a participação de pessoas com habilidades para gerar
novos conhecimentos e resolver desafios [2]. Ademais, competições
colaborativas também têm desempenhado papel importante na busca do
“estado da arte” de áreas específicas da biologia computacional [3]. Entre os
principais exemplos, estão incluídas competições envolvendo montagem de
genomas[4], determinação de estruturas de macromoléculas [5] e anotação
funcional de proteínas [6].
No aprendizado, as competições colaborativas têm papel importante ao

promover a comunicação interpessoal e o trabalho em grupo com diferentes
níveis de formação acadêmica. Além disso, elas auxiliam a formação do
pensamento crítico e a resolução de problemas de forma prática.
Competições conferem vantagens em termos de perspectivas profissionais,
já que instigam o desenvolvimento de habilidades importantes para o futuro
profissional [7]. Estudos realizados com pré-universitários nos EUA mostram
que a participação de alunos em competições nas áreas de ciência,
tecnologia, engenharia e matemática (coletivamente abreviadas como
“STEM”, do inglês “Science, Technology, Engineering, and Mathematics”) se
correlaciona com o interesse desses participantes em seguir a carreira em
STEM, área com perspectiva de crescente demanda nos próximos anos [8]. As
áreas de biologia computacional e bioinformática também têm apresentado
forte e crescente demanda de profissionais. Nesse contexto, a Liga Brasileira
de Bioinformática (LBB) foi criada para incentivar o desenvolvimento de
profissionais de bioinformática e biologia computacional no Brasil.
A primeira edição da LBB ocorreu em 2019 a partir de um projeto idealizado

por membros estudantis da International Society for Computational Biology
(ISCB) RSG-Brazil (rsg-brazil.iscbsc.org); sendo realizado em parceria com a
Associação Brasileira de Bioinformática e Biologia Computacional (AB3C;
ab3c.org.br). A LBB visa unir, principalmente, estudantes de cursos de
biológicas e exatas de diversas universidades brasileiras para testar os seus
conhecimentos relacionados à bioinformática. Além disso, a LBB tem como
objetivo promover a integração de alunos da comunidade acadêmica,
contribuir com a formação de recursos humanos em bioinformática e
estimular futuras competições nacionais e internacionais na área. O
networking desenvolvido durante a LBB é essencial para o aprendizado e
disseminação do conhecimento científico, contribuindo com a formação de
novos bioinformatas no Brasil.
A LBB 1ª Edição [9] foi realizada em formato presencial e virtual, desafiando

168 estudantes de universidades públicas e privadas do Brasil e do exterior. O
público-alvo da competição consiste principalmente em estudantes de
graduação e pós-graduação, bem como profissionais de áreas correlatas. A
LBB consiste em três fases: 1) constituída por 60 questões objetivas de
biologia, bioinformática e tecnologia da informação; 2) composta por cinco
desafios de biologia computacional; e 3) inclui o desenvolvimento de um

projeto de pesquisa inovador pelos finalistas da competição. Durante a

competição de 2021, serão abordados temas relevantes a bioinformática e
biologia computacional por meio de webinars (seminário online). Ainda,
serão realizados eventos de networking social e de discussões em diversas
ômicas, a fim de auxiliar o crescimento profissional dos participantes. Dessa
forma, a LBB tem potencial de gerar diversos impactos positivos no campo
acadêmico brasileiro.
Organização da LBB
A LBB é um projeto autônomo da RSG-Brazil, que permite a participação de
integrantes não associados ao grupo e possui um setor administrativo
próprio. Essa autonomia permite que a LBB tenha seus próprios termos de
responsabilidade e de sigilo, bem como a não divulgação de dados
confidenciais a pessoas externas à organização da competição.
A LBB é formada atualmente pela célula administrativa e seus

departamentos. A primeira é composta pelo presidente, vice, e um
representante da RSG-Brazil. Esse setor é responsável pela gestão principal,
monitoramento de atividades, e demandas jurídicas e administrativas.
Enquanto a segunda célula é dividida em: Atendimento ao Público, Banco de
Questões, Financeiro, Jurídico e Mídias Sociais (Figura 1). A LBB é organizada
por alunos de graduação e pós-graduação, pós-doutorandos, profissionais
da área e professores de diferentes universidades/institutos do Brasil e do
exterior. Todos os membros têm em comum o interesse pela bioinformática e
o desejo de difundi-la no Brasil, promovendo o conhecimento a comunidade.
Figura 1. Estrutura organizacional da LBB. A organização é

formada por dois setores, administrativo e departamentos. Os
departamentos são divididos em Atendimento ao público, banco
de questões, financeiro, jurídico e mídias sociais.
Os departamentos da organização foram distribuídos de forma a atender às

diversas demandas organizacionais, sendo que cada setor é constituído por
um coordenador e pelos integrantes. Os coordenadores são responsáveis por
gerir as atividades, auxiliar na adaptação dos novos integrantes e direcionar
o grupo. Integrantes são colaboradores do grupo. Eles contribuem para
realizar as atividades estabelecidas, além de propor novas ideias, tendo a

prerrogativa de propor sugestões em reuniões gerais em nome daquele

departamento. Essa divisão de trabalhos tem um papel essencial para uma
distribuição de tarefas de forma mais organizada e eficiente, visto que todos
os participantes são voluntários e possuem outras atividades paralelas.
Ademais, a organização tem reuniões mensais para apresentação de ideias e
votações, sendo tudo registrado em atas.
O Atendimento ao Público (AP) é responsável pelas mídias oficiais da LBB,

apresentando como responsabilidades principais: atualizações do site,
atendimento no e-mail oficial, inscrições na LBB, inscrições e sorteio do LBB
MATCH, geração e envio de certificados. O Banco de Questões (BQ) tem como
responsabilidades: a elaboração das provas da primeira fase, o contato com
professores para a prova da segunda fase, revisão ou reelaboração dessas
questões, implementação da prova da segunda fase no sistema para
correção automática, e determinação do projeto da terceira fase e sugestão
da banca final. Além disso, o BQ também tem como responsabilidade a
correção e revisão das provas após a primeira e segunda fase. O Financeiro
(F) é responsável pela arrecadação de patrocínio e destinação das verbas
obtidas. O Jurídico (J) tem como responsabilidade a proposta do
regulamento oficial e dos termos jurídicos e contratos desenvolvidos pela LBB.
Por fim, as Mídias Sociais (MS) são responsáveis pelo desenvolvimento das
artes para Instagram e Facebook oficiais da LBB. As MS têm o intuito de
difundir temas pertinentes à bioinformática e a própria competição para a
sociedade. Durante o período que antecede e precede a competição, o
departamento também é responsável por manter os participantes
informados sobre o regulamento, prazos e seus resultados, bem como
prospectar novas parcerias para a divulgação da competição.
Inscrições
As inscrições são realizadas através do site oficial da LBB
(https://lbb.ime.usp.br/) mediante o preenchimento de um formulário
eletrônico no qual exige que o participante esteja de acordo com três
documentos: regulamento, termos de uso de imagem e termo de conduta. Na
LBB 2ª Edição, a inscrição de cada integrante é realizada individualmente, o
que garante uma maior confiabilidade dos dados e a leitura dos termos por
todos os integrantes da equipe. Para o preenchimento da primeira parte do
formulário é necessário: 1) nome da equipe; 2) senha de segurança; e 3)
nome completo de cada integrante. Lembrando que todos os itens devem ser
iguais para todos os integrantes da equipe. Durante a segunda fase de
preenchimento do formulário, cada participante deve escolher sua posição
na equipe (líder, integrante 2 ou integrante 3). Ressaltando que o líder deverá
apresentar um atestado de matrícula em Instituição de Ensino Superior
Brasileira e que integrantes com doutorado completo devem se cadastrar
como integrante 2. Nessa parte ocorre o cadastro dos dados pessoais do
participante: nome completo, e-mail, CPF, data de nascimento, naturalidade,
identidade de gênero, nível de escolaridade, área de graduação,
Universidade/Instituto ou local de trabalho, estado da Universidade/Instituto

ou trabalho, área da bioinformática que possui domínio, nível de

conhecimento em bioinformática, nível de programação, linguagem de
programação, e organismos que trabalha atualmente (ou trabalhou). Após a
submissão da resposta, o participante receberá um recibo de preenchimento
por e-mail, que deve ser guardado como comprovante de inscrição.
Sobretudo, cada participante deve se responsabilizar pela veracidade das
informações fornecidas durante a inscrição, pois será feita a checagem das
informações prestadas.
São admitidas inscrições de equipes com dois ou três integrantes, sendo

exigido que todos os participantes sejam maiores de 18 anos no momento da
inscrição, e que pelo menos um integrante esteja regularmente matriculado
em uma Instituição de Ensino Superior Brasileira. Ademais, as equipes podem
apresentar apenas um único membro com doutorado completo. São aceitas
equipes de quaisquer áreas de formações acadêmicas, universidades e
instituições, garantindo maior interdisciplinaridade entre os participantes da
competição. Não são aceitas inscrições de doutores com mais de dois anos
após a defesa, profissionais do setor privado e público na área de
bioinformática ou áreas correlatas com mais de quatro anos de serviço que
estejam empregados no momento da inscrição, profissionais contratados ou
concursados em universidades ou institutos federais, estaduais e privados
com mais de quatro anos de serviço que estejam empregados no momento
da inscrição. Além disso, ficam impedidos de participar membros da
Comissão de Organização, membros da RSG-Brazil em situação ativa, ex-
membros da Comissão de Organização (menos de cinco anos entre o
desligamento oficial da Comissão de Organização da LBB e a data final de
inscrição da LBB 2021) e ex-membros da RSG-Brazil (menos de um ano entre o
desligamento oficial da RSG-Brazil e a data final de inscrição da LBB 2021). Isto
garante que nenhum competidor tenha acesso a informações privilegiadas.
Além disso, os competidores precisam estar de acordo com os termos: 1)

Autorização para Uso de Imagem Pessoal, que visa autorizar a utilização de
sua imagem e nome, em favor da LBB e das organizações parceiras e
patrocinadoras; e 2) Termo de Consentimento para Tratamento de Dados,
que visa registrar a utilização dos dados pessoais em caráter gratuito para
fins acadêmicos e científicos.
O último termo a que todos os participantes devem estar de acordo, é o

Manual de Conduta do Competidor Disciplinar e Ético, na qual a LBB define
diretrizes para que o competidor haja de acordo com os valores da LBB a fim
de gerar um ambiente harmonioso e de equidade, visando sempre o respeito,
responsabilidade, honestidade e gentileza.
LBB MATCH
A fim de suprir a necessidade de participantes que não tinham equipes, a LBB
criou alternativas para auxiliar nesta etapa, entre elas, o LBB MATCH (MATCH).
O MATCH é um software automático criado em Python, para combinar os

candidatos conforme suas características e preferências buscando sempre a

formação de equipes equilibradas (Figura 2).
Figura 2. Fluxograma de funcionamento do

software desenvolvido para o MATCH. Um
arquivo .csv com informações dos participantes é
utilizado como entrada. Os parâmetros de entrada
são definidos: 1) pessoas por equipe, 2) quantidades
de equipes a serem formadas, e 3) formato de saída.
Em seguida, o software inicia o processamento e
montagem das equipes considerando as regras da
competição. O arquivo é exportado no formato
escolhido.
No ato da inscrição do MATCH, cada candidato preenche um formulário

eletrônico (disponível em https://lbb.ime.usp.br/match-na-lbb) descrevendo
o seu perfil acadêmico e o perfil desejado para compor a sua equipe. Durante
o preenchimento do perfil é informado: estado (onde trabalha/estuda),
situação atual (estudo/trabalho/sem vínculo), nível de escolaridade
completo, área de graduação, área de bioinformática que tem mais
conhecimento, nível de conhecimento em bioinformática, nível de

conhecimento em ciências da computação, nível de conhecimento em

biologia, nível de programação, linguagem de programação que tem
conhecimento, bem como se o candidato tem ou terá doutorado completo
até a data da final da LBB (outubro/novembro de 2021).
Com esses dados, são realizados sorteios para possibilitar a formação das
equipes levando em consideração as preferências de cada inscrito. Os
sorteios são eventos em que executamos o software para distribuição dos
inscritos em trios, sempre considerando as normas do regulamento e a
preferência dos inscritos. Durante a edição atual foram definidas quatro
datas de sorteios. Ao final de cada sorteio são enviados os perfis dos
integrantes sugeridos, e os candidatos podem aceitar ou recusar a equipe
selecionada. Caso o candidato não responda até a data indicada, ele é
recolocado no próximo sorteio. Todavia, se o participante retornar com uma
resposta negativa, o sistema evitará que ele seja recolocado com os mesmos
integrantes no sorteio subsequente. Durante os três primeiros sorteios, o
nome e e-mail dos participantes só são disponibilizados depois do aceite.
Porém, no último sorteio, devido à proximidade da data final de inscrição na
LBB 2ª Edição, os candidatos não têm a opção de avaliar o perfil dos
integrantes sorteados antes que seja liberado o contato dos mesmos.
Além do MATCH e da possibilidade de buscar um grupo através da sua

própria rede de contatos, os candidatos que pretendem participar da LBB 2ª
Edição, também pode optar pela busca de equipes através das alternativas:
1) Grupo do Facebook “LBB – Dupla a procura de 1 Integrante” (disponível em:
https://www.facebook.com/groups/1101535463660577); 2) SLACK LBB 2º Edição
(disponível em: https://join.slack.com/t/lbb2edioprocu-
xcj6537/shared_invite/zt-prp4m4ty-05MiDnhJHzpherusYHIzJA); 3) Instagram
oficial da LBB (@ligabrasileiradebioinformatica), em que são repostados, aos
finais de semana, stories de duplas que buscam integrantes. As duplas que
desejam utilizar essa última opção podem utilizar a imagem modelo
disponibilizada nos “destaques” do Instagram da LBB.
Webinars
Com o intuito de fomentar a troca de conhecimento implementamos
webinars na LBB 2ª Edição. Eles são divididos em dois eixos: 1) webinar sobre a
LBB: contando experiências sobre como participar, como é organizada a
competição, como funciona, como são as provas e respondendo a dúvidas; e
2) webinar temáticos, onde trazemos palestrantes das diversas áreas da
bioinformática e biologia computacional para seminários. Ambos os eixos
são abertos ao público. O objetivo dos webinars é incentivar a participação
do público geral na LBB, seja ele iniciante ou avançado. O eixo temático visa
também fomentar a formação de pessoas em todos os níveis (iniciante,
médio ou avançado), dando a oportunidade de estudantes aprenderem mais
sobre a bioinformática e conhecerem pós-doutorandos, professores,
pesquisadores e profissionais que possam ser referência na área. Durante o

início do ano, as MS da LBB realizaram um levantamento de temas de

interesse através do Instagram utilizando enquetes e/ou caixas de perguntas.
Eventos de networking
A fim de incentivar a formação dos participantes da LBB 2ª Edição e levar um
pouco de diversão durante a competição, foram implementados dois tipos de
eventos de networking: discussões e social.
O networking de discussões consiste em um espaço para que os

participantes possam fazer perguntas sobre temas relacionados à
bioinformática e biologia computacional. Nesse espaço poderão ser enviadas
dúvidas, perguntas específicas sobre metodologias, e até questionamentos
sobre a vida profissional e pessoal na academia, criando um ambiente
seguro para discussões saudáveis que estimule o compartilhamento de
informações e conhecimentos em bioinformática.
O networking social (Figura 3) será algo mais divertido e que visa estimular a
formação de contatos. Para isso, será utilizada uma plataforma para criar um
espaço personalizado para a LBB, em que cada participante poderá escolher
seu próprio avatar durante o evento. Assim, durante o período estipulado, os
integrantes poderão passear pelo espaço LBB e conversar com as pessoas
próximas, conhecer futuros parceiros de trabalho e até fazerem algumas
amizades em um ambiente descontraído.
Figura 3. Imagem representativa de um espaço virtual

para a LBB. Durante a competição será criado um espaço
virtual exclusivo para a LBB em que apenas os participantes da
competição terão acesso. Nele, cada participante escolherá um
avatar que o represente, e poderão conversar por chat ou por
chamadas de áudio e vídeo com outros competidores ou
convidados.
Primeira fase

A primeira fase da LBB 2ª Edição visa avaliar o conhecimento integrado das

equipes participantes tendo como enfoque principal três grandes áreas:
Biologia, Ciências da Computação e Bioinformática. Dentro deste contexto
são oferecidas uma série de questões, cujas temáticas abordam diferentes
linhas de pesquisas atuais e envolvem conhecimentos adquiridos à nível de
graduação e pós-graduação.
No total são 60 questões de múltipla-escolha, 20 questões por área, cada

uma delas contendo quatro alternativas de resposta, sendo apenas uma
delas a correta. Cada resposta correta valerá um ponto e não haverá
subtração de pontos no caso de respostas incorretas. As questões deverão
ser respondidas em um tempo máximo de 5 horas e 3 minutos, tempo
definido por alusão ao “sentido da vida” (5’→3’) – DNA polimerase sintetiza as
fitas de DNA neste sentido, produzindo as fitas complementares durante a
duplicação do DNA. Ressalta-se que as equipes participantes devem se
organizar a fim de resolver as questões em tempo hábil, sendo importante
otimizar o conhecimento de cada integrante participante. Além disso, esta
fase competitiva deve servir para aprimorar os conhecimentos de todos os
integrantes e trazer o aprendizado de forma dinâmica e integrativa com a
comunidade científica.
A primeira fase ocorrerá de forma online, e será implementada no Google

Classroom (Figura 4). A prova será disponibilizada em um arquivo PDF e todos
os participantes poderão fazer o download a partir das 13hs (BRT) do dia 4 de
julho de 2021. Após a resolução da prova, os participantes deverão submeter
a resposta final na plataforma.
Figura 4. Representação da primeira fase da LBB 2ª

Edição. Cada equipe participante deverá responder 60 questões
(20 de Biologia, 20 de Ciências da Computação e 20 de
Bioinformática) utilizando a plataforma do Google Classroom, em
um tempo limite de 5 horas e 3 minutos.

O ranking de notas será composto por:
1. pontuação total das equipes com pelo menos 50% de acerto em todas as
áreas (Biologia, Computação e Bioinformática);
2. pontuação total das equipes que não atingiram 50% de acerto em todas
as áreas.
Em caso de empate de notas, o tempo de prova será utilizado como critério

de desempate.
Exemplo: Questão de bioinformática extraída da LBB 1º

Edição
Com relação às plataformas de sequenciamento de DNA, quais
permitem a obtenção de 𝑙𝑜𝑛𝑔-𝑟𝑒𝑎𝑑𝑠?
A. 454 e Illumina MiSeq.
B. MinION e PacBio SMRT.
C. MinION e Illumina MiSeq.
D. Illumina MiSeq e PacBio SMRT.
Resposta: B
Segunda fase
A segunda fase da LBB consiste em uma série de desafios de biologia
computacional com o objetivo de avaliar a compreensão e a capacidade de
resolver problemas biológicos das equipes. Portanto, a competição não se
limita a resolver desafios de programação, mas também compreender a
pergunta biológica e os requisitos necessários para resolução. Além disto, a
principal dificuldade destes desafios nem sempre precisa estar atrelada a
complexidade algorítmica ou computacional. Um exemplo disto pode ser
observado na pergunta abaixo:
Dado uma lista das coordenadas espaciais dos átomos de uma

estrutura proteica, identifique todas as pontes dissulfeto presentes nesta
estrutura.
Como pode-se ver, ao invés de darmos como entrada um arquivo

convencional de estrutura proteica, como o PDB, mmCIF ou PDBML, foi
dado apenas a informação necessária para a resolução do problema,
inviabilizando também que os participantes resolvam o desafio através
do uso de ferramentas já existentes. O desafio computacional deste
exemplo é simples, a dificuldade vem principalmente do conhecimento a

respeito das pontes dissulfeto, e ligações entre pares de cisteínas, que

são estabilizadas por volta de 2Å de distância. Também é importante
garantir que não haja possibilidade de falha nos resultados esperados,
que podem ser causadas principalmente por exceções no conceito
biológico. Por exemplo, existem variações na literatura a respeito da
distância máxima entre pares de cisteínas para que haja uma ponte
dissulfeto. Para isto, o dado de entrada deve ser preparado para que
todas as pontes estejam dentro do conceito base, não abrindo espaço
para ambiguidade no resultado esperado.
Todas as questões da segunda fase serão corrigidas automaticamente pela

plataforma utilizada pela LBB. O único arquivo fornecido pelo usuário será um
texto contendo o resultado obtido. Portanto, a elaboração dos desafios requer
atenção extra à forma de avaliação das questões, sendo necessário o acesso
ao resultado ótimo global de cada análise. Além disso, é também elaborada
uma função de pontuação para os resultados submetidos.
Os desafios presentes na segunda fase são elaborados por professores de

universidades ou institutos de pesquisas, atuantes na área da bioinformática,
e são revisadas, testadas e implementadas pelo BQ. A segunda fase ocorrerá
nos dias 11 e 12 de setembro de 2021, sendo disponibilizada às 0h do dia 11 e
permanecerá aberta até as 23h59 do dia 12.
Terceira fase
A terceira fase da LBB consiste em desenvolver um projeto em bioinformática
delineado pela Comissão de Organização. O projeto se baseia em explorar
dados disponíveis em bancos públicos para um problema social, ambiental,
humano, entre outros. Durante o desenvolvimento do projeto de pesquisa são
consideradas: Pergunta Científica, Justificativa, Objetivo, Metodologia,
Resultados Preliminares e Cronograma. Do mesmo modo, o projeto proposto
é delimitado, tanto em tempo de desenvolvimento, quanto em custo. As
equipes finalistas devem escrever o projeto destacando a sua extensão
alcançada, a formação de recursos humanos, o retorno social, o impacto
ambiental, bem como, a criação/suporte de novas redes de colaboração,
infraestrutura, divulgação de resultados e entre outras.
As três equipes finalistas apresentarão um projeto escrito de até cinco

páginas que deverá ser entregue até uma semana antes da apresentação.
Todos os projetos serão avaliados por uma banca julgadora composta por
três pesquisadores(as) em bioinformática. As apresentações orais dos
projetos serão realizadas na forma de seminários de 15 minutos, mas sempre
explicitando a pergunta científica e as metodologias utilizadas, bem como os
resultados obtidos. Cada integrante da banca julgadora deverá pontuar cada
uma das três equipes finalistas pelos seguintes critérios:

1. A existência de uma pergunta científica bem delimitada;
2. A escolha adequada de metodologias para responder aquela pergunta;
3. A exploração e interpretação adequada dos resultados obtidos;
4. A clareza e criatividade da apresentação do projeto;
5. Bônus.
A definição da equipe vencedora é decidida exclusivamente pela banca, sem

a interferência da organização da LBB. A terceira fase da LBB foi pensada para
estimular o aprendizado sobre a criação de um projeto de pesquisa
delineado, pensamento crítico, viabilidade financeira, planejamento de
tempo, e aplicação de ferramentas em bioinformática. É de suma
importância que as equipes sejam claras e objetivas, mas se atenham ao
custo e tempo proposto para desenvolvê-lo. A terceira fase ocorrerá no mês
de novembro de 2021 e será divulgada com pelo menos 60 dias de
antecedência.
Discussão
A LBB mostrou-se um evento de sucesso, com potencial de impactar grande
parte da comunidade de bioinformática do Brasil, em especial os
bioinformatas mais jovens, durante a graduação ou pós-graduação. Através
de incentivo pela competição para especialização na formação do
bioinformata, cooperação entre indivíduos com experiência em diferentes
áreas do conhecimento, e sistematização de conteúdos pautando um
currículo de bioinformática, a LBB contribuiu positivamente para o
fortalecimento da comunidade de bioinformática no Brasil.
Competições são utilizadas frequentemente como forma de incentivo e

atração de indivíduos a áreas ou problemas específicos. Olimpíadas
direcionadas a alunos da Educação Básica são tradicionais no Brasil e em
outros países, e são vistas como estratégias importantes para atração de
jovens para STEM. Recentemente, hackathons são cada vez mais utilizados
como forma de recrutamento na iniciativa privada, e como forma de
promoção de áreas de conhecimento associadas à tecnologia e à
computação. A LBB integra elementos dessas competições em um único
evento e, através da competição, procura aumentar o interesse pela
bioinformática no Brasil.
Além disso, a organização do MATCH permitiu uma maior integração entre

interessados na competição. Pessoas com formação em áreas de
conhecimento distintas, e de diferentes regiões do Brasil, tiveram a
oportunidade de colaborar durante a LBB 1ª Edição, mesmo sem se conhecer
previamente. Essa iniciativa contribui para a integração da comunidade de
bioinformática, potencialmente criando novos contatos e promovendo o
networking.

Por fim, a LBB mostrou-se como uma plataforma para estabelecimento de

um currículo de bioinformática, pautando conhecimentos relevantes para
bioinformatas e os permitindo testar seus conhecimentos no framework
estabelecido.
Aos que estão inseridos na área da bioinformática ou têm interesse em

aprender mais sobre o tema, a LBB é uma grande oportunidade para
aprender e avaliar seus conhecimentos. A LBB 2ª Edição vem ainda com a
inclusão de webinars e propostas de networking que podem favorecer o
aprendizado.
A organização da LBB 2ª Edição conta com 17 integrantes, entre eles

professores, estudantes, e profissionais de bioinformática, todos realizando
trabalho voluntário para organizar a competição em conjunto com outras
atividades. A alta demanda de tempo surge nesse contexto como o maior
desafio para organização da competição. Ademais, a organização atual vem
realizando um esforço extra para automatizar o MATCH, organizar
documentações e e-mails, aumentar a quantidade de patrocinadores a fim
de trazer inovação e prêmios a todos os participantes, e gerar conteúdo para
as redes sociais.
Conclusão
A LBB apresenta um grande potencial para incentivar e estimular o
aprendizado em bioinformática e biologia computacional a partir de desafios
que envolvem um conhecimento multidisciplinar. Durante esta edição,
criamos novas formas para estimular o conhecimento sobre temáticas
relevantes à bioinformática através dos webinars temáticos, promovendo
conhecimento técnico com os networkings de discussão e favorecendo o
engajamento social da comunidade de estudantes de bioinformática. Além
disso, estamos sempre pensando em novas formas de criar um ambiente de
aprendizado que seja inovador e estimulante aos competidores. Além disso, a
LBB não se apresenta em 2021 apenas como uma competição, mas como um
ecossistema de imersão que vem para desafiar os participantes e ao mesmo
tempo trazer conhecimento, a fim de atender a necessidade de iniciantes a
experts em bioinformática.
Agradecimentos
Nós agradecemos à International Society for Computational Biology (ISCB)
RSG-Brazil (rsg-brazil.iscbsc.org) e Associação Brasileira de Bioinformática e
Biologia Computacional (AB3C; ab3c.org.br) e a todos os apoiadores da LBB
por colaborarem com a execução do evento. Em especial, agradecemos ao
Prof. Dr. Marcelo Brandão, Prof. Dr. Fabrício Martins Lopes, Meire Tarlá e Raquel
Riyuzo. Agradecemos também a todos os organizadores do evento que não
estão como autores: Prof. Dr. Raquel Minardi, Iracy Mayani Soares e Thales
Alves.

Referências
1. WELCH, L. et al. Bioinformatics curriculum guidelines: toward a definition of
core competencies. PLoS Comput Biol, v. 10, n. 3, p. e1003496, Mar 2014.
2. LAKHANI, K. R. et al. Prize-Based Contests Can Provide Solutions to

Computational Biology Problems. Nature Biotechnology v. 31, n. 2, p. 11, 2013.
3. SAEZ-RODRIGUEZ, J. et al. Crowdsourcing biomedical research: leveraging

communities as innovation engines. Nat Rev Genet, v. 17, n. 8, p. 470-86, Jul 15
2016.
4. BRADNAM, K. R. et al. Assemblathon 2: evaluating de novo methods of

genome assembly in three vertebrate species. Gigascience, v. 2, n. 1, p. 10, Jul
22 2013.
5. LAWSON, C. L. et al. Cryo-EM model validation recommendations based on

outcomes of the 2019 EMDataResource challenge. Nat Methods, v. 18, n. 2, p.
156-164, Feb 2021.
6. ZHOU, N. et al. The CAFA challenge reports improved protein function

prediction and new functional annotations for hundreds of genes through
experimental screens. Genome Biol, v. 20, n. 1, p. 244, Nov 19 2019.
7. PATHANASETHPONG, A. et al. Health Hackathon as a Venue for

Interprofessional Education: A Qualitative Interview Study. Journal of
Interprofessional Care, v. 34, n. 6, p. 34, 2020.
8. MILLER, K.; SONNERT, G.; SADLER, P. The Influence of Students’ Participation in

STEM Competitions on Their Interest in STEM Careers. International Journal of
Science Education, v. 8, n. 2, p. 95-114, 2018.
9. CARVALHO, L. M. et al. League of Brazilian Bioinformatics: a competition

framework to promote scientific training. bioRxiv, 2020

19
EN SI NO
Uma estratégia para engajamento de

participantes de eventos online
By Diego Mariano
12 de junho de 2021
Uma estratégia para engajamento de participantes de eventos online

Diego Mariano , Wylerson G. Nogueira , Wanessa M. Goes , Roselane G. dos Santos ,
Rodrigo Bentes Kato , Nayara Toledo , Lucio R. Queiroz , Heron O. Hilário , Gabriel
Quintanilha-Peixoto , Fernanda S. D. Lage , Fenícia Brito Santos , Felipe Caixeta , Ana
Paula de Abreu , Alessandra Lima da Silva , Joicymara S. Xavier
Revisão: Filipe Zimmer
DOI: 10.51780/978-6-599-275326-19
D
evido ao advento da pandemia de COVID-19, eventos
acadêmicos passaram a ocorrer em plataformas online.
Entretanto, diferente dos eventos presenciais, eventos pela
internet limitam a interação entre participantes. Aqui, é
apresentada uma estratégia de gamificação usada para ampliar o
engajamento dos participantes durante o I Workshop Online de
Bioinformática (WOB20). A estratégia, denominada “Taça das Casas”,
consistiu em agrupar os participantes, com base em suas áreas de interesse,
em quatro grupos distintos que competiram entre si. Dos 2727 inscritos no
WOB20, 200 participantes se inscreveram nessa atividade interativa. A
atividade consistia em responder uma série de perguntas referentes às
palestras ocorridas durante os três dias de eventos. O grupo vencedor
deveria acertar a maior quantidade de questões (outliers foram removidos).
Os participantes puderam interagir com outros membros do grupo por meio
de salas exclusivas de discussão. Ao fim, notou-se uma maior proporção
média de mensagens ao vivo entre participantes do evento durante a
competição. Isso pode indicar um aumento no engajamento e interação
entre participantes. Estratégias como esta podem ser utilizadas para
aumentar o interesse em eventos online, proporcionando aos participantes
mais possibilidades de interação.
Introdução
Eventos acadêmicos presenciais, como congressos, conferências e
workshops, permitem uma maior interação entre participantes. Eles fornecem
um ambiente propício para que os participantes conversem sobre pesquisas,
palestras do evento, assuntos acadêmicos e outros assuntos do mundo
cotidiano. De certa forma, esse tipo de conversa e interação entre
pesquisadores sobre o dia a dia nos laboratórios pode ter um impacto
positivo em suas carreiras [1].

Em geral, interações em eventos acadêmicos presenciais ocorrem durante as

confraternizações, intervalos entre palestras ou durante o coffee break.
Eventos online também permitem interações entre participantes por meio de
ferramentas de comunicação instantânea (chats de mensagens). Além disso,
tem sido relatado que eventos online tendem a reduzir a inibição dos
participantes [2]. Mesmo assim, alguns participantes podem se sentir inibidos
devido ao medo de se expor em chats públicos. Ainda, as limitações do
ambiente web podem restringir o encontro com outros participantes com
interesses em comum. Com o advento da pandemia de COVID-19 [3], a
grande maioria dos eventos acadêmicos passou a ser realizada em
plataformas online.
Em novembro de 2020, um comitê formado por estudantes do Programa

Interunidades de Pós-graduação em Bioinformática da Universidade Federal
de Minas Gerais (UFMG) organizou o I Workshop Online de Bioinformática
(WOB20). Durante três dias, o evento contou com 12 palestras de
pesquisadores renomados e três painéis de discussão (mesas-redondas). O
evento teve ao todo 2727 inscritos de diversas partes do país e do mundo. O
público do WOB20 foi formado principalmente por estudantes de graduação,
mestrado e doutorado, além de estudantes do ensino médio e pesquisadores
em estágio pós-doutoral com interesse em pesquisas na área de
bioinformática. O WOB20 foi transmitido ao vivo pela plataforma de vídeos
YouTube através do canal do Comitê Organizador do Curso de Verão em
Bioinformática da UFMG (https://www.youtube.com/CVBioinformáticaUFMG).
A fim de engajar os participantes do evento, o comitê organizador definiu

uma competição interativa, denominada “Taça das Casas”. Os inscritos no
WOB20 que desejassem participar poderiam também se inscrever
gratuitamente nessa atividade, que ocorreu em paralelo ao último dia do
evento. O objetivo principal da competição foi propor que os alunos se
organizassem em grupos e respondessem a perguntas relacionadas às
palestras do evento. Aqui é apresentado um breve relato de como essa
competição foi implementada e quais as principais perspectivas obtidas.
A seleção
Visando aperfeiçoar as interações entre participantes do WOB20 e da
atividade extracurricular proposta, estabeleceu-se um método para divisão
dos inscritos em grupos. A estratégia de agrupamento visou: (i) Construir
quatro grupos com um número de indivíduos aproximado; (ii)
preferencialmente, agrupar indivíduos com interesses em comum; e (iii)
apresentar um baixo custo computacional para definição dos membros dos
grupos.
Assim, a “Taça das Casas” foi dividida em quatro grupos, denominados como
“casas”. Essa ideia foi inspirada na cultura pop e na fauna brasileira. Estudos
têm relatado o uso de personagens baseados em animais da fauna brasileira

em atividades de ensino [4, 5]. Dessa forma, presumiu-se que isso poderia
estimular um maior interesse por parte dos participantes. Foram definidas
quatro casas: Cobra, Onça, Jacaré e Capivara (Figura 1).
Figura 1. As quatro casas: Cobra (acima à esquerda), Onça (acima à direita), Jacaré
(abaixo à esquerda) e Capivara (abaixo à direita). Arte produzida pelo departamento de
divulgação do Comitê de Organização do Curso de Verão da UFMG e por Henrique Caixeta
Moreira.
Para cada “casa”, apresentou-se um brasão com um animal representante.

Essa estética foi adotada para atrair a atenção dos participantes e incentivá-
los a interagir com outros membros de seu grupo.
Como a divulgação da competição foi realizada durante o último dia do

WOB20, não foi necessário realizar uma inscrição prévia para participar da
competição. Requisitou-se apenas que os participantes estivessem
regularmente inscritos no WOB20 e que informassem nome e endereço de e-
mail, usados para contactar os vencedores.
A seguir, os participantes passaram por um processo de seleção para

definição de suas casas. O processo de seleção foi definido pela resposta a
três questões:

1. Escolha uma “Ômica”:

1. Genômica
2. Transcriptômica
3. Proteômica e/ou Bioinformática estrutural
2. Qual tópico mais te atrai?

1. Empreendedorismo
2. Divulgação científica
3. Qual dos seguintes tipos de organismos corresponde a uma área mais

interessante de estudo?
1. Procariotos
2. Eucariotos
A seleção utilizou um sistema de pontuação simplificado, a qual a seleção na

casa seria definida com base em uma resposta específica (Tabela 1). Por
exemplo, se um participante escolhesse as opções “genômica”,
“empreendedorismo” e “procariotos”, respectivamente, logo seria classificado
no grupo “cobra”. Podemos fazer essa classificação com base nas respostas
e no sistema de pontuação: o participante teria 2 pontos no grupo cobra, 1
ponto no grupo onça, 1 ponto no grupo jacaré e nenhum ponto para o grupo
capivara.
# Respostas Cobra Onça Jacaré Capivara
1 Genômica 1 1 0 0
Transcriptômica 1 1 0 0
Proteômica e/ou Bioinformática

0 0 1 1
estrutural
2 Empreendedorismo 0 0 1 0
Divulgação científica 0 0 0 1
3 Procariotos 1 0 0 0
Eucariotos 0 1 0 0
Tabela 1. Sistema de pontuação simplificada para seleção de casas. Esse

sistema foi definido com base em um modelo de inteligência artificial
(detalhes nos materiais suplementares).
Após a seleção, cada participante recebeu o link para o questionário da

competição, um link para uma sala de conversa em particular com outros
membros de seu grupo e a senha de acesso.
A atividade
Após ser selecionado em uma das casas, cada competidor recebeu o link
para um formulário do Google Forms (https://docs.google.com/forms),
contendo 12 questões referentes a cada uma das 12 palestras do evento
(material suplementar). As questões consistiam em perguntas relacionadas a

tópicos comumente citados durante as palestras. Por exemplo, a décima

questão avaliou o entendimento da palestra “Vacinologia reversa e genômica
subtrativa no desenvolvimento racional de fármacos e vacinas” (Figura 2).
Das 200 pessoas que responderam a essa questão, 87% delas assinalaram a
resposta correta.
Figura 2. Questão relacionada à palestra “Vacinologia reversa e

genômica subtrativa no desenvolvimento racional de fármacos e
vacinas” realizada no terceiro dia do evento pelo Prof. Dr.
Siomar Soares da Universidade Federal do Triângulo Mineiro
(UFTM). Outras questões estão disponíveis no material
suplementar.
De fato, as perguntas não poderiam ser consideradas complexas, uma vez

que a grande maioria delas envolvia assuntos amplamente citados durante
as palestras. Além disso, elas poderiam ser rapidamente respondidas.
Estimou-se que cada pergunta demandaria aproximadamente um minuto
para ser analisada e respondida. É importante ressaltar que o objetivo da
competição não é avaliar o conhecimento dos participantes, mas sim
engajá-los a conversar com outros participantes e discutir os temas das
palestras. Por isso, foi permitido (e até mesmo recomendado) que os
participantes conversassem com outros membros do mesmo grupo sobre as
questões da competição. A própria plataforma do YouTube, utilizada para
transmissão do evento, também foi usada para permitir a comunicação
dentro das equipes. Para cada equipe, adicionou-se um vídeo não listado,
exibindo apenas o brasão da casa. Apenas membros selecionados
receberam o link para acesso. Assim, os membros da equipe puderam se
comunicar por meio da caixa de comentários públicos do YouTube.
O resultado
Ao todo 200 participantes do WOB20 se inscreveram na competição. A
grande maioria dos participantes acertou todas as perguntas e conseguiu a
pontuação máxima de 12 pontos (Figura 3). Além disso, deve-se ressaltar que
a pontuação média foi de 9,88 pontos e a nota mediana foi de 10 pontos.

Figura 3. Distribuição total de pontos dos 200 participantes da

competição. Figura gerada pelo Google Forms.
Para evitar vieses oriundos do desbalanceamento no tamanho dos grupos, foi

estabelecido que a casa vencedora seria aquela que obtivesse a maior
média interna excluindo 10% dos dados (5% das menores notas e 5% das
maiores notas). Essa estratégia foi sugerida para remover outliers, e assim
buscar um resultado considerado mais justo. Entretanto, o resultado da
média interna usando 90% dos dados não alterou o ranking quando
comparado ao uso apenas da média simples (Tabela 2).
Média Desvio
# Grupo Média n
interna padrão
1 Onça 10,20 10,05 1,99 94
2 Jacaré 10,00 10,00 2,28 17
3 Capivara 9,93 9,84 1,86 45
4 Cobra 9,73 9,48 2,79 44
Tabela 2. Média de acertos para os quatro grupos. A média interna foi

calculada removendo 10% dos dados presentes nas extremidades. Valores
arredondados. A coluna n indica a quantidade de respostas para cada grupo.
Ao final do evento, a casa da onça foi a vencedora. Para incentivar a

participação na competição, uma empresa patrocinadora do evento premiou
os membros do time vencedor com cupons gratuitos para cursos de
programação voltados para a bioinformática.
Avaliando o engajamento

Avaliar o engajamento dos participantes de eventos online é uma tarefa

complexa. O relatório estatístico fornecido pelo YouTube, plataforma usada
para realização do WOB20, indicou que aproximadamente 2800 usuários
únicos assistiram a pelo menos uma palestra do evento (alguns dados desse
relatório estão disponíveis no material suplementar). Esses dados corroboram
com o total de participantes que inicialmente se inscreveram para requisitar
o certificado de participação (2727 inscritos). Como os links de acesso ao
evento estavam publicamente disponíveis, muitos espectadores não
registrados puderam assistir às palestras.
Por ser um evento à distância, os participantes sentem-se à vontade para

assistir apenas às palestras que têm maior interesse. Dados estatísticos do
YouTube para o WOB20 indicam que os espectadores assistiram em média
entre três e quatro palestras das cinco exibidas a cada dia. Além disso,
muitos inscritos preferiram não assistir às palestras ao vivo. Logo, a
quantidade de espectadores que assistiram simultaneamente a cada
palestra apresentou uma grande variação. A título de comparação, o pico de
espectadores simultâneos ocorreu na primeira palestra, quando 815 pessoas
assistiam ao mesmo tempo a apresentação ao vivo. Apesar de ser uma boa
métrica para avaliar o interesse, o pico de espectadores simultâneos decai a
cada palestra. Mesmo em eventos presenciais é observado uma redução no
número de participantes no último dia. Em transmissões online, esse é um
fenômeno natural proporcionado devido ao redirecionamento incorreto do
YouTube para outros vídeos, pela preferência dos usuários em assistir ao
evento de forma assíncrona ou pelo cansaço natural dos espectadores por
assistir a um evento online.
Outra forma de mensurar a participação em eventos online consiste em

analisar as mensagens enviadas no chat durante as palestras. A plataforma
do YouTube permite que espectadores enviem mensagens aos palestrantes e
a outros espectadores por um chat de mensagens. Usuários utilizam o chat
para enviar perguntas, realizar discussões sobre o tema da palestra ou
conversar entre si. Algumas perguntas enviadas foram selecionadas pela
comissão do evento e as mais relevantes foram direcionadas ao vivo pelos
mediadores aos palestrantes.
O pico de mensagens nos chats geralmente ocorre na primeira palestra do

dia ou na última, quando os usuários utilizam o chat para cumprimentar
outros participantes. Uma alta quantidade de comentários em uma palestra
pode ocorrer devido a uma maior desinibição dos usuários, ao se sentirem
mais à vontade para comentar e realizar questionamentos a cada palestra.
Devido a um decaimento natural no pico de espectadores à medida que o
evento ocorre, é previsível que ocorra também um decaimento no número de
comentários. De fato, os dados sugerem que isso naturalmente ocorre nos
dois primeiros dias. Entretanto, ao analisar a razão entre comentários
realizados e o pico de espectadores, pode-se ver um aumento proporcional
médio no terceiro dia (Tabela 3).

Pico de
Mensagens M/E
# Palestra especta-
no chat (pico)
dores
Palestra de abertura: Bem-vindo(a) à

1 Bioinformática – I Workshop Online de 732 815 0,90
Bioinformática da UFMG
Três Gerações e Uma História: A Evolução

2 das Tecnologias de Sequenciamento e 405 767 0,53
Bioinformática
Evolução, Parasitos e Bioinformática:

3 Emprego para Compreensão em Escala 154 529 0,29
Genômica
4 Virologia e Enfrentamento da COVID-19 127 357 0,36
Mesa Redonda – Carreira Acadêmica em

5 221 285 0,78
Bioinformática
6 Introdução à Transcriptômica e Splicing 340 552 0,62
O Que é Toxicogenômica e Como Ela Pode

7 Auxiliar no Desenvolvimento de 179 453 0,40
Medicamentos Mais Seguros
Metatranscriptômica como Ferramenta

8 de Identificação e Monitoramento de 219 377 0,58
Vírus Emergentes e Reemergentes
O Futuro da Biologia na Era da Inteligência

9 280 314 0,89
Artificial
Mesa Redonda – Carreira em

10 187 193 0,97
Bioinformática na Indústria
Métodos de Inteligência Computacional

11 395 450 0,88
em Bioinformática Estrutural
12 Biologia estrutural 236 360 0,66
Vacinologia reversa e genômica

13 subtrativa no desenvolvimento racional 188 290 0,65
de fármacos e vacinas
Interpreting Genomic Variants: From

14 Personalised Medicine to Pandemic 208 245 0,85
Preparedness
Mesa Redonda – Empreendedorismo em
15 333 188 1,77
Bioinformática
Tabela 3. Estatísticas das palestras do WOB20. A coluna “mensagens no chat” indica mensagens enviadas
ao vivo durante as palestras. O “pico de espectadores” indica a quantidade máxima de usuários assistindo
ao mesmo tempo. M/E (pico) corresponde à razão entre o total de mensagens no chat pelo pico de
espectadores, e é utilizada como uma métrica de comparação. Médias (M/E): 0,57 (1-5); 0,69 (6-10); e 0,96
(11-15). Dados obtidos no YouTube.
A Tabela 3 mostra o pico de espectadores e a quantidade de mensagens no

chat para cada uma das palestras. Pode-se notar um aumento na média
proporcional de comentários durante a competição, o que pode indicar um
possível aumento de engajamento proporcionado pela atividade. Apesar da
redução no pico de espectadores, vê-se que a média de comentários se
mantém ou tem um leve aumento no último dia. Uma análise manual dos

comentários do chat realizados ao vivo revelou um fenômeno inesperado e

interessante: participantes da competição utilizavam hashtags ao final de
cada mensagem para indicar a qual time pertenciam. De fato, esperava-se
que as discussões sobre a competição ocorressem apenas nos chats
específicos de cada grupo. Entretanto, o interesse pela competição foi levado
para o chat principal, o que pode ser um indício da redução na inibição dos
participantes que passaram a realizar mais comentários e interagir uns com
os outros.
Análise das falhas na organização da

atividade
Apesar do aparente sucesso na implementação da competição, algumas
falhas no processo organizacional puderam ser detectadas. Uma delas se
refere ao desbalanceamento dos grupos. Para ilustrar isso, pode-se
comparar o grupo onça, com 94 membros, e o grupo jacaré, com apenas 17.
Apesar do uso de um método alternativo para definição do vencedor (média
interna removendo 10% dos outliers), esse desbalanceamento pode ter
inserido um viés no resultado final. Um modelo de agrupamento baseado em
inteligência artificial foi aplicado para escolha dos grupos. Entretanto, alguns
requisitos dessa seleção (como por exemplo, o requisito de que membros
deveriam ter interesses similares) inseriram a necessidade de que os
participantes respondessem a dezenas de perguntas para que o método de
agrupamento funcionasse (dados não disponíveis). Isso poderia
desincentivar a participação. Assim, utilizou-se uma estratégia baseada em
algoritmos de árvore de decisão para selecionar as três perguntas mais
importantes para classificação. No entanto, essa estratégia foi construída
utilizando apenas algumas respostas de membros do comitê organizador, ou
seja, não foi possível estabelecer uma resposta com relevância estatística.
Seria possível obter grupos com quantidades iguais de membros utilizando

métodos de seleção aleatórios, mas isso afetaria um dos principais objetivos
dessa competição: promover um ambiente para que participantes com
interesses acadêmicos em comum possam interagir. Como perspectiva,
recomenda-se a implementação de um método de seleção similar ao atual,
mas que aplique um sistema simples de balanceamento que considere as
inscrições já feitas. Por exemplo, se o classificador indicar que o indivíduo A
possui alta similaridade com indivíduos do grupo X, Y e Z, mas se os grupos X
e Y já possuírem muitos membros, o classificador deverá optar pelo grupo Z.
Outro problema detectado refere-se à divulgação da competição. A

competição ocorreu das 15h às 18h no terceiro e último dia do evento. Isso foi
necessário para que os participantes já tivessem algum conhecimento
prévio, adquirido durante as palestras dos primeiros dias, sobre os temas da
competição. Entretanto, a divulgação da competição foi realizada apenas na
primeira palestra do último dia, ocorrida às 14h. Isso limitou a quantidade de
participantes quando comparado ao total de inscritos no evento. Assim,

sugere-se iniciar a divulgação da competição no início do evento,

estabelecendo questionários parciais a cada dia, além de uma atualização
diária sobre qual equipe está à frente na competição.
Conclusão
Eventos online permitem que diversas pessoas participem de atividades ao
mesmo tempo, mesmo estando em diversas partes do mundo. Entretanto,
eles podem ser cansativos, uma vez que há pouco espaço para interação
direta entre participantes. Portanto, estratégias para promover engajamento
são bem-vindas. Aqui apresentou-se os resultados de uma competição
realizada durante o I Workshop Online de Bioinformática da UFMG (WOB20). A
competição reuniu, em grupos, participantes com interesse em comum,
avaliando questões referentes às palestras assistidas. Notou-se um aumento
médio nas interações realizadas entre participantes durante a competição.
As estratégias aqui apresentadas podem ser adotadas em eventos online
para aumentar o engajamento dos participantes. Sugere-se ainda que esse
tipo de competição possa ser adaptado e adotado em eventos presenciais.
Material suplementar
925KB (PDF) Baixar
Arquivo suplementar 1. Perguntas e respostas para as 12 questões da “Taça

das Casas”.
917KB (PDF) Baixar
Arquivo suplementar 2. Metodologia de agrupamento.
Referências
1. Tam V. Finding community during coffee breaks. Science. 2019;366:654–654.
doi:10.1126/science.366.6465.654.
2. Hugel M. Virtual Events Vs. In-Person Events: Why You Should Host Your Event
Online. https://info.workcast.com/blog/virtual-events-vs-in-person-events.
Accessed 22 May 2021.
3. Habas K, Nganwuchu C, Shahzad F, Gopalan R, Haque M, Rahman S, et al.

Resolution of coronavirus disease 2019 (COVID-19). Expert Rev Anti Infect Ther.
2020;18:1201–11.

4. Da-Silva E, Coelho L, Rodas T, Nogueira L. QUAL É A IMPORTÂNCIA DOS

ANIMAIS NA COMPOSIÇÃO DOS PERSONAGENS DA CULTURA POP? REFLEXÕES A
PARTIR DA PREFERÊNCIA DOS ALUNOS DA DISCIPLINA ZOOLOGIA DE ARTRÓPODOS.
2015.
5. Rodas T, Nogueira L, Baffa A, Silveira T, Coelho L, Da-Silva E. PERSONAGENS DA

CULTURA POP INSPIRADOS EM ARTRÓPODOS E SUA UTILIZAÇÃO NAS AULAS DE
ZOOLOGIA. 2015. doi:10.13140/RG.2.1.4149.7769.

20
DES TAQ UE S E V OL U ÇÃ O
Os 5 passos essenciais para construção de

árvores filogenéticas
By Filipe Zimmer
27 de março de 2021
Os 5 passos essenciais para construção de árvores filogenéticas

Filipe Zimmer Dezordi
DOI: 10.51780/978-6-599-275326-20
At last, butterflies get a bigger, better evolutionary tree.

Fonte: https://www.floridamuseum.ufl.edu/science/at-last-
butterflies-get-a-bigger-better-evolutionary-tree/
Caro(a) leitor(a), esse será o primeiro de uma série de pequenos artigos com
dicas em bioinformática. A iniciativa vêm da produção de conteúdos na
minha página do Instagram, e a ideia é reunir uma coletânea de dicas
voltadas para um determinado assunto, neste primeiro texto, falarei sobre
construção de árvores filogenéticas.
Eu sigo a filosofia do “Antes feito do que perfeito”, pois é a única forma que eu
tenho de conciliar um doutorado, meus desenhos e a produção de conteúdos
para uma página, então, se você está atrás de conteúdos super explicados,
diferenças entre filogenética e filogenômica; filograma ou dendograma;

inferência bayesiana ou de máxima verossimilhança, eu recomendo a você

procurar algum livro de bioinformática ou artigos científicos, pois o conteúdo
desses artigos será extremamente direto e sem referências (que feio para um
cientista né? mas vamos lá, quantas vezes você rodou uma ferramenta
porque seu orientador mandou, sem nem se perguntar o porque? haha, antes
feito do que perfeito!). Então vamos lá!
Passo 0: Comece pelo suplementar

Como todo bom programador, sabemos que a contagem na computação
começa sempre pelo caracter 0. Fora isso, eu resolvi não inserir esse passo
como algo relacionado especificamente a construção de árvores
filogenéticas, mas é uma etapa que você sempre deve tentar realizar no seu
estudo, seja em bioinformática ou em bancada: Comece pelo suplementar!
Normalmente, no material suplementar de artigos nós colocamos

informações adicionais que servem para reforçar as informações descritas
no artigo, mas que não são informações essenciais para apresentação do
texto. Uma das boas práticas de pesquisa é documentar tudo que está sendo
feito, na bancada por exemplo, podemos documentar linhagens celulares ou
cepas que estamos usando, os kits utilizados nas análises e até os
parâmetros setados nos equipamentos. Em bioinformática, podemos
documentar praticamente tudo: Origem das sequências, versões das
ferramentas, etapas realizadas, linhas de comando utilizadas, modificações
realizadas entre um arquivo e outro.
Quando estamos falando de análises evolutivas, um suplementar muito

importante é informações sobre as sequências utilizadas, aqui você já
começa a fazer uma análise dos seus dados, levantando informações
secundárias (metadados) que ajudarão você a anotar a sua árvore
filogenética ao final das análises, veja o exemplo:
Exemplo de material suplementar para vírus da família Coronaviridae
Este é um exemplo de suplementar que pode ser criado para a

família Coronaviridae, onde na primeira coluna temos o nome da “espécie”
viral, presente no ICTV, na segunda temos o código da cepa (que podemos
usar como nome no arquivo fasta, o que reduz a poluição textual nos tips da
filogenia), nas colunas adicionais temos os metadados, onde nas colunas 2 e

3 temos informações da taxonomia desses vírus, que podemos usar para

colorir os clados (agrupamentos) nas árvores filogenéticas, na coluna 5
temos o código de acesso à sequência do vírus (o que permite a
reprodutibilidade das suas análises) e na última coluna temos os
hospedeiros, que podemos utilizar para entender a possível co-evolução vírus
hospedeiro ou a transmissão entre hospedeiros após a construção e
anotação das árvores.
Enfim, além de facilitar a sua vida na hora de responder aos revisores do

artigo, você pode gerar insights sobre seus resultados além de permitir a
reprodutibilidade da sua pesquisa, então, comece pelo suplementar! (vai dar
muito menos trabalho do que fazer o suplementar depois de meses de
análises).
Dicas do Passo 0:
Use sed, awk, grep e loop em bash (for) para automatizar a edição e

estruturação desses materiais;
Use o E-utilities do NCBI (em python as funções estão na

biblioteca biopython), para recuperar automaticamente as sequências
por código ou por informação taxonômica, preparei um script bem
basicão pra isso, disponível nesse link;
Limite o nome das suas sequências ao código de acesso mais alguma

informação curta, nesse exemplo do texto, o código da cepa viral;
Sempre tente trabalhar com padrões e com análises reprodutíveis, por

menor que seja a tarefa, evite fazer de forma manual, acredite em mim,
você vai precisar refazer a mesma tarefa pelo menos 3 vezes até a
publicação do artigo (valor diretamente da minha imaginação).
Passo 1: Construa um bom conjunto de

sequências
Assim como em todo bom experimento de bancada, para boas análises de
bioinfo precisamos de amostras de qualidade. Se em bancada precisamos
de material genético ou proteínas em amostras de alta qualidade (material
intacto e sem contaminação), em bioinformática precisamos de sequências
confiáveis, mas o que isso significa?
É normal que ocorram erros durante o sequenciamento, ou até

sequenciamentos incompletos, o que resulta, ao final das etapas de
montagem, em sequências repletas de NNNNs (quando você não estiver
trabalhando com sequências hard-masked), o que concomitantemente
resulta em sequências proteicas repletas de XXX após as análises de
obtenção de ORFs. Caso você tenha sequências com esses caracteres, saiba
que você estará perdendo informação genética nas estimativas evolutivas,
dependendo do foco do seu estudo, e se essas regiões não resolvidas
estiverem em regiões chaves para as análises (como domínios ou motivos

proteicos, por exemplo), pode ser que você tenha dificuldade em gerar
árvores bem suportadas.
Para resolver este pequeno problema, primeiro você deve ter um bom
conhecimento teórico da molécula que você está estudando, se as regiões
não resolvidas estiverem fora das regiões chave para as análises evolutivas,
talvez o impacto na topologia final da árvore seja pequeno, mas é sempre
bom ter noção da qualidade dos dados ao início de qualquer análise.
Outro problema que pode aparecer, é a criação de datasets gigantescos,

cheios de sequência que não trarão nenhuma informação valiosa para seus
resultados, explico. Uma das análises normalmente utilizadas em análises
evolutivas é recuperar as sequências por duas estratégias:
Pegar sua/suas sequência(s) alvo e realizar uma análise de BLAST para

recuperar sequências similares (e fique de olho no BLAST que você vai
rodar, blastn padrão roda o megablast e você só recupera sequências
altamente similares), geralmente, o pesquisador que vai por esse caminho
tende ou a recuperar o arquivo fasta com os matches, ou selecionar no
olho alguns matches;
Pegar sequências de referência diretamente em bancos de dados

personalizados, por exemplo: BOLD systems, FlyBase, Vectorbase.
Ambas estratégias podem resultar em um conjunto diverso de sequências,

mas que podem esconder no meio desse balaio de gato algumas sequências
redundantes. Essas sequências redundantes, na minha visão, podem ser
tanto sequências 100% idênticas, ou sequências com mais de 99% de
identidade de uma mesma espécie, e o potencial dessas sequências
redundantes em aumentar o tempo computacional ou gerar árvores com
topologias com politomia é grande (sim, vou usar termos subjetivos aqui).
Então sempre é bom pensar na sua questão biológica (e eu sempre vou bater
muito nessa tecla), se você vai fazer uma filogenia de genes/proteínas
distribuídos ao longo de um grupo taxonômico, por exemplo, proteínas de
envelope dos Flavivirus, é necessário você ter a sequência da proteína de 200
linhagens do vírus da Dengue? ou é melhor você construir um banco de
proteínas com as proteínas Env de todas as “espécies” do gênero Flavivirus?
Mas se você estiver trabalhando com um gene de subpopulações da mesma

espécie, por exemplo, um gene de resistência à inseticidas em Aedes
aegypti, então você deve usar o maior número de sequências possíveis de
diferentes populações. Esses questionamentos iniciais quase sempre vão
iluminar a escolha da estratégia de recuperação de sequências.
Dicas do Passo 1:

Tenha conhecimento dos resíduos não resolvidos (NNNNNs/XXXXXs) nas

sua sequências, você pode contabilizar isso facilmente com alguns scripts
básicos;
Defina um padrão claro para recuperação das sequências, e documente

isso no material suplementar (Passo 0);
Defina para o seu estudo o que seriam sequências redundantes, e

remova-as, cd-hit e cd-hit-est são boas ferramentas para isso;
Faça uma última checagem dos seus dados: Nomes das sequências
(fasta headers) formatados; Estratégia de recuperação das sequências
bem clara; Remoção das sequências redundantes, se necessário.
Passo 2: Pense que você está alinhando

dados biológicos, não apenas caracteres
digitais
Praticamente as duas metodologias de análise evolutiva mais robustas
utilizam a mesma lógica básica: A melhor árvore filogenética será a que
explica melhor os dados de entrada, seja por probabilidade de máxima
verossimilhança (Maximum Likelihood), ou pelas melhores topologias em
populações imensas de árvores filogenéticas (inferência Bayesiana). E um
dos dados de entrada mais importante que temos, é justamente o
alinhamento das sequências. Um alinhamento incorreto, sempre resultará em
uma árvore filogenética incorreta, dessa forma, vamos pensar em como
realizar uma boa análise de alinhamento!
Antigamente basicamente cada uma das várias estratégias de alinhamento

era implementada em uma ferramenta específica, até que um grupo
maravilhoso de pessoas criou a ferramenta MAFFT, a qual eu uso desde a
graduação, por dois principais motivos:
Sua disponibilidade em plataforma web ou por linha de comando, com

fácil implementação;
A gama de estratégias de alinhamento bem como a gama de parâmetros

que podem ser ajustados para otimização das análises.
Dessa forma, caso você venha a utilizar o MAFFT, ou qualquer outra

ferramenta para alinhamento de sequências, é sempre bom ter em mente
que você está trabalhando com informações biológicas, e alguns parâmetros
podem/devem ser ajustados, para inserir um sentido biológico na análise
computacional. Entre os parâmetros que devemos ficar de olho no MAFFT são:

UPPERCASE / lowercase: Caso você esteja trabalhando com sequências

nucleotídicas soft-masked, é melhor setar same as input, para evitar
confusões entre nucleotídeos em letras maiúsculas/minúsculas.
Direction of nucleotide sequences: Essa opção permite corrigir o sentido

das sequências de nucleotídeos, é muito importante caso algum grupo
tenha depositado a sequência invertida nos bancos de dados;
Scoring matrix: Matriz Blosum 62 ou 80 para proteínas mais conservadas,

30 ou 45 para menos conservadas e Matriz PAM 1 ou 20 para sequências
de nucleotídeos mais conservadas, e PAM 200 para menos conservadas.
A estratégia de alinhamento pode ser ajustada se você tiver um

conhecimento da estrutura das sequências a serem alinhadas (um ou
vários domínios conservados por exemplo), geralmente a
opção default Auto serve pra maioria dos casos, pois a ferramenta irá
detectar qual será a melhor abordagem de alinhamento de acordo com o
conteúdo do arquivo fasta.
Após a etapa de alinhamento, você pode utilizar uma ferramenta para

visualizar o resultado, eu recomendo a ferramenta Aliview por vários motivos
(veja esse post). Nessa primeira visualização com Aliview, você já terá noção
da qualidade do alinhamento (checando os sítios conservados e não
conservados pelas opções de visualização, sério mesmo, veja esse post),
sequências muito divergentes no alinhamento podem:
Ter sido depositadas incorretamente no banco de dados;
Ser de baixa qualidade (gerada por um sequenciamento de baixa

qualidade);
Estar invertida;
Simplesmente ser uma sequência evolutivamente divergente, e cabe a

você se vale a pena investir energia em tempo para solucionar o
problema dessa sequência específica, ou simplesmente removê-la do
alinhamento (spoiler do Passo 3).
Então sempre devemos ter em mente nossa pergunta, e quais os dados

necessários para respondê-la, e por último, mas não menos importante, o
quanto de tempo/recursos temos para investir em determinado problema.
Dicas do Passo 2:
Tomar cuidado com o possível sentido inverso de algumas sequências no

seu dataset;
Ajustar as matrizes de distância;
Crie um pequeno alinhamento de referência, e use o MAFFT -add (spoiler

passo 3);
Passo 3: Nem sempre mais é melhor, edite

seu alinhamento, mas tente evitar os
vieses do operador

Uma prática comum antes de partir para as análises filogenéticas é realizar a

edição do alinhamento. Essa edição serve geralmente para remover
sequências, ou regiões específicas do alinhamento, que resultam em algum
ruído no alinhamento, o que potencialmente modificará a topologia final da
árvore. Normalmente essa edição é realizada de forma a remover sequências
“pobremente” alinhadas, ou regiões cheias de SNPs ou Indels, que não trarão
informações para resolução dos agrupamentos da filogenia.
Nos primórdios da bioinformática, essa edição era feita na mão, o que criava
um viés gigantesco entre os estudos, pois a forma que eu editaria um
alinhamento na mão, você não editaria da mesma forma, então foram
surgindo algumas ferramentas que automatizam algumas dessas etapas,
deixando apenas poucos detalhes para serem ajustados na mão.
Uma ferramenta publicada recentemente e com um funcionamento

excelente é a ferramenta CIAlign, com essa ferramenta você pode realizar
inúmeros tipos de análises, desde cálculo de matriz de distância, o que
permite você estimar a identidade média entre as sequências no seu
alinhamento (e você pode calcular essa identidade das sequências de
referência, e das sequências que você está estudando para estimar se está
tudo certinho). Você pode remover sequências que não estão bem alinhadas
(inclusive usando o limiar de distância estipulado na análise anterior);
remover os gaps, remover sequências pequenas (estipulando um tamanho
mínimo específico), e remover as regiões do início e do fim de cada
sequência que podem apresentar ruídos.
Além de todas as possibilidades de análise, a cada análise o CIAlign gera

figuras (desde que isso seja solicitado) do esquema de edição do
alinhamento, como na figura abaixo:
output gráfico da ferramenta CIAlign
Nesse caso, temos um alinhamento de cerca de 50 sequências (eixo Y) de

quase 800 aminoácidos (eixo X), onde a região em azul (detectadas como
inserções ou regiões não conservadas) foram removidas.

Existem outras ferramentas para edição, mas o CIAlign além de implementar

praticamente todas as funcionalidades das demais ferramentas,
implementou a geração dessas figuras de input e disponibilizou o código de
fácil implementação, basta instalar (ou baixar o script e rodar com python) e
testar as possibilidades (farei uma postagem futura só com o CIAlign, pois
tem estratégias bem interessantes de uso dessa ferramenta).
Dicas do Passo 3:
Instale o CIAlign;
Faça uma análise de matriz de distância do seu alinhamento;
Utilize a média da matriz de distância (lembre de remover os outliers)

como um valor de threshold para remoção das sequências divergentes;
Remova as pontas com ruídos e os gaps;
Faça uma última visualização com o Aliview para ver se está tudo certo
com o alinhamento;
Se você criar um alinhamento de referência e usar o mafft -add, a etapa

de edição praticamente não é necessária!
Documente tudo que seja importante para a reprodutibilidade do seu

estudo, sim vou voltar no Passo 0 toda hora!
Passo 4: Várias estratégias e várias

ferramentas, como rodar a análise
filogenética correta?
Uns anos atrás, eu escreveria um passo só falando sobre a estimativa dos
modelos evolutivos, mas praticamente as ferramentas mais utilizadas hoje já
calculam o modelo evolutivo e o aplicam na análise filogenética.
Um modelo evolutivo é basicamente uma fórmula estatística que explica

como os nucleotídeos ou aminoácidos vão mudar no seu alinhamento, e os
parâmetros de otimização (variações gamma e similares) explicam com que
frequência essas mudanças acontecem. Se você pretende utilizar uma
ferramenta de análise filogenética que não estima o modelo
automaticamente, indico o ModelFinder como ferramenta para realizar esta
estimativa e depois aplicar o modelo na sua análise evolutiva.
Feitas as considerações sobre os modelos, atualmente existem 2 métodos

largamente utilizados para reconstruções evolutivas, o método de máxima
verossimilhança e a inferência bayesiana, quando utilizar cada um deles?
Métodos de máxima verossimilhança geralmente são empregados em

análises iniciais (uma análise rápida para verificar se o alinhamento do jeito
que foi construído é suficiente para gerar uma árvore com topologia que faz
sentido). Essas análises geralmente utilizam um método de cálculo rápido
para o suporte de ramo (aLRT ou ultrafast-bootstrap), pois nessa análise

inicial precisamos de um resultado rápido e que consuma baixo poder

computacional. Após essa análise inicial (que fica indicado aqui ser feita com
o PhyML online, ou com a ferramenta fasttree), você pode realizar as análises
pra valer, eu tenho utilizado muito a ferramenta IQ-TREE, devido sua fácil
implementação, sua velocidade, estimativa automática de modelo e uma
série de opções de análise que essa ferramenta fornece.
Normalmente nessas análises de máxima verossimilhança usamos o valor de

suporte de ramo para estimar a confiabilidade das nossas análises, o valor
padrão é o bootstrap (cada valor de bootstrap implica uma réplica de
análise onde o alinhamento foi embaralhado e foi gerada uma árvore
específica, então se foram feitas 100 réplicas, e um clado apresenta 80 no
valor de bootstrap, significa que em 80 árvores aquele clado foi reconstruído
daquela forma), e podemos ter alguns valores que se equivalem ao
bootstrap, mas executam uma análise mais rápida, como o aLRT
(equivalência à 80% do bootstrap tradicional) e o ultrafast-bootstrap (ficarei
devendo a equivalência).
E quando usar a inferência bayesiana no lugar da máxima verossimilhança?

Na verdade, poucas questões na biologia terão uma resposta padrão, ou
correta em 100% dos casos. No caso da escolha do método, não existe uma
explicação do porquê usar a bayesiana no lugar da máxima verossimilhança,
mas…
Quando não conseguimos clados bem suportados por análise de máxima

verossimilhança, normalmente rodamos análises bayesianas, eu uso
o MrBayes para análises bayesianas mais simples, e colegas usam
o BEAST para inferência bayesiana com datação, onde você pode inserir
informação de datações de sequências ancestrais, e a análise estipulará a
datação da formação dos clados na árvore evolutiva (isso também está
aplicado no IQ-TREE para máxima verossimilhança, mas ainda está um tanto
limitado).
Outro ponto que temos que ter em mente é a disponibilidade de recursos

computacionais, quanto mais complexa a análise, mais poder de
processamento é necessário, então em uma regra extremamente geral, em
ordem crescente de custo computacional teríamos: ML com aLRT -> ML com
boostrap -> Bayesiana. Fique atento(a) na literatura, quais métodos vem
sendo desenvolvido e quais as vantagens e desvantagens de cada método
para cada tipo de problema biológico (e não acredite em respostas
definitivas para tudo, geralmente quem oferta essas respostas “não sabe que
não sabe”).
Dicas do Passo 4:

Tenha um bom alinhamento (Passos anteriores);
Faça uma análise de teste (PhyML aLRT ou fasttree);
Faça uma análise de ML (500 bootstrap geralmente são o suficiente);
Veja se a árvore consenso gerada faz sentido, e se está bem suportada;
Se não estiver bem suportada, tente uma Bayesiana (normalmente

começando com 3 árvores iniciais e parando quando as árvores geradas
tiverem um desvio padrão menor de 0.05, mas isso não é uma regra);
Se precisar de datação, utilize o BEAST (normalmente avaliando as

métricas com o TRACER, ajustando os pesos entre as métricas até todas
estiverem num valor limiar ideal).
Passo 5: Apresente seus dados de forma a

responder seu problema biológico
Ao final da análise, você terá o arquivo com a topologia da árvore consenso
(árvore gerada representando o conjunto de árvores criadas durante as
análises), mas o trabalho não acaba por aí! Apresentar o arquivo como ele é
gerado implica que o leitor do seu estudo terá que procurar por conta as
informações que estão presentes na árvore, e isso diminui muito o interesse
no seus resultados. Existem várias ferramentas para anotar árvores
filogenéticas, eu indico três:
iTOL: Para quem não tem familiaridade com linguagens de programação,

permite realizar diversos tipos de anotação, e inserção de gráficos na
filogenia, mas costuma travar com grandes quantidades de dados (mais
de 5 mil sequências, por exemplo);
toytree: Para quem gosta de brincar com python, possui uma limitação na
questão de cores e possibilidades de anotação quando comparada com o
iTOL, mas permite a anotação de árvores realmente gigantes (anotei
árvores de SARS-CoV-2 com mais de 7 mil genomas, sem problemas);
ggtree: Para quem tem familiaridade com R, eu realmente testei poucas

funções dessa biblioteca, pois não tenho muita familiaridade com R, e na
minha opinião a comunidade de R não se esforça muito para produzir
manuais ou tutoriais de fácil entendimento, mas caso você seja um mago
do R, está aí a dica!
Esse último passo vai de encontro ao Passo 0, então se você preparou o

arquivo suplementar, basta puxar os metadados para anotar sua árvore,
nesse exemplo temos uma árvore de máxima verossimilhança da polimerase
da família Coronaviridae, onde usei as informações de código de Strain no
nome das sequências, de gênero para coloração dos clados (Podemos ver
que temos os gêneros bem definidos), e por fim fiz a adição de algumas
figuras dos hospedeiros pelo Inkscape, marcado em amarelo escuro os vírus
que já foram identificados em humanos.

Então se a nossa pergunta inicial fosse, qual a origem do SARS-CoV-2 (que

cometi o erro de deixar como hCoV-19 na filogenia), podemos ver que está no
mesmo clado do SARS-CoV e muito próximo ao SARS-CoV-RaTG13, que é um
coronavírus encontrado em roedores e morcegos e ao PCoV GX-P5E, que é
um coronavírus encontrado normalmente em pangolins, tudo casando com
as teorias mais aceitas atualmente para a origem do SARS-CoV-2, certo?
Dicas do Passo 5:
Tenha metadados para a anotação da árvore (sempre voltando ao Passo

0);
Escolha a ferramenta de acordo com os dados que você quer anotar (iTOL
permite anotar até piechart e barplots ao lado das filogenias);
Padronize o nome das sequências, caso você pense em mostrar eles nas
filogenias (filogenias com centenas de sequências ficam muito poluídas
com os nomes nos tips);
Pense em quais informações são importantes para serem mostradas na

sua figura final;
Por esse artigo era isso pessoal, algumas informações podem ter sido
passadas de forma muito direta, mas era essa a ideia mesmo, faça um
check-list desses passos e se aprofunde em cada um deles na hora de
realizar suas análises! E lembre-se estou longe de ser um especialista em
filogenia, pense se esses passos fazem sentido para suas análises, e sempre
busque a literatura científica na hora de tomar qualquer decisão para suas
análises!!!


Agradecimentos
Confesso que inicialmente não tinha pretensão de escrever uma seção de agradecimentos,
mas tendo em vista o tamanho que este projeto adquiriu, seria quase uma ofensa não
dedicar um espaço para agradecer a quem nos apoiou. Antes de tudo devo agradecer aos
outros 53 autores que toparam participar desta jornada: Alessandra, Alice, Ana, Anderson,
Bruno, Danilo, Danilton, Deivid, Elisa, Elvira, Felipe, Fenícia, Fernanda, Filipe, Flávia,
Gabriel, Glen, Gustavo, Helber, Heron, Izadora, Joana, Joicymara, Kaíssa, Leandro,
Letícia, Lissur, Luana, Lucas, Lucianna, Lucio, Maira, Mayla, Mônica, Nayara, Neli,
Pâmela, Paulo, Pedro, Quézia, Renato, Rodrigo, Roselane, Sandro, Sheila, Victor,
Vinicios, Vinícius, Vitor, Wandré, Wanessa, Welington e Wylerson. Sei que o tempo de
um pesquisador é bastante precioso, por isso agradeço por terem destinado parte de seu
tempo para compartilhar conhecimento.
Agradeço ainda a Filipe Dezordi, Pedro Martins, Joicymara Xavier, Thiago Sousa,
Leonardo Lima e Lucianna Santos, que atuaram na revisão dos textos. Um agradecimento
extra ao Pedro Martins por ter contribuído financeiramente para a aquisição dos servidores
que hospedam o projeto e à Joicymara Xavier pela atuação na divulgação. Agradeço ao
Sandro Batista pelo suporte na catalogação do conteúdo e ao Wylerson pela revisão final
do manuscrito. Agradeço ainda a Raquel Minardi, que não atuou diretamente nesta
primeira edição, mas cujas conversas ajudaram a estabelecer os pilares do que este projeto
se tornaria.
Caros leitores, há quase 10 anos atuando na bioinformática, tenho acumulado uma série de
anotações e manuscritos redigidos dentro e fora de sala de aula que, até então, estavam
perdidos em pastas esquecidas no meu SSD. De fato, há muito conteúdo na web sobre
bioinformática produzido em língua inglesa, mas ainda há uma lacuna a ser preenchida
quando se trata de conteúdo em língua portuguesa. Sempre tive interesse em construir um
projeto de divulgação científica na minha área de atuação, mas me faltava tempo e apoio
(inclusive financeiro). Apenas no fim de 2019, iniciei, junto a colegas da UFMG, a
construção de uma WIKI para termos relacionados à Bioinformática Estrutural. O projeto
seria mantido pela equipe do Laboratório de Bioinformática e Sistemas do Departamento
de Ciência da Computação da UFMG, mas devido ao advento da pandemia de 2019 e à
dificuldade em conciliar com outros trabalhos acadêmicos, não pudemos avançar na
proposta. Porventura, em meados de 2020 fui premiado na ISCB Wikipedia Competition
por um artigo relacionado à Bioinformática Estrutural. Com o valor do prêmio (US$500)
pude então investir na estrutura necessária para criação do sonhado projeto de divulgação
científica, que mais tarde poderia vir a se tornar uma rede de divulgação em bioinformática
(isso indiretamente levou à criação de uma editora de atuação exclusivamente digital para
cuidar do registro e indexação do conteúdo). A priori, o projeto se chamaria
“Bioinformata", mas relutei por meses em registrar o domínio. Somente no fim de 2020,
enquanto buscava um domínio para divulgação do Workshop Online em Bioinformática da
UFMG com a ajuda da Alessandra Lima, consegui registrar o domínio “bioinfo.com.br”.
Me parecia um nome ideal. Nos meses seguintes iniciei a construção da interface do
sistema web necessária para gestão de conteúdo, mas apenas no começo de 2021 o acesso
ao site foi disponibilizado ao público. Desde então, o portal BIOINFO passou a aceitar a

submissão de textos por autores externos. Além disso, após uma extensa pesquisa,
decidimos estabelecer um modelo de publicação por capítulos de livro. Pode parecer
estranho a primeira edição da “Revista Brasileira de Bioinformática” não ser publicada
exatamente como uma revista, mas sim como um livro (isso foi necessário devido a
questões burocráticas, uma vez que um ISSN só pode ser atribuído a revistas com pelo
menos duas edições publicadas para que se tenha o estabelecimento de periodicidade). Esta
primeira edição chega após quase dois anos de preparação. Apesar disso, a versão final
ainda não chegou ao nível de qualidade que eu desejava (ainda há muito a melhorar em
especial quando se trata dos processos de revisão por pares, diagramação e da indexação de
conteúdo na web). Em todo o caso, foi um prazer atuar como editor desta primeira edição.
Nas próximas edições outra pessoa atuará como editor(a). Vejo isso como um passo
necessário para que a revista ganhe diversidade de opiniões e se torne aquilo que foi
planejada para ser: o braço de divulgação de uma ampla rede de iniciação científica em
bioinformática e biologia computacional. Por fim, todo este parágrafo foi escrito para
introduzir um último agradecimento, a você leitor. Espero que este manuscrito tenha lhe
proporcionado uma boa leitura.
Diego Mariano,
31 de agosto de 2021.
Diego César Assinado de forma digital por

Diego César Batista Mariano
Batista Mariano Dados: 2021.09.19 15:43:35 -03'00'
Dedicado a Vera

Esta é uma obra sem fins lucrativos.
Nenhum valor foi cobrado ou pago aos autores e revisores.
Produzido por
Alfahelix Publicações é uma editora online que atua no mercado de

publicações científicas, em especial para o registro de e-books
Editora registrada na CBL para atribuição de Editora habilitada pelo Crossref para
ISBN. registro de DOI.
Filiada à Associação Brasileira dos Editores Editora registrada no Google Books para
Científicos. indexação de livros.
© 2021 Alfahelix | CNPJ: 37.524.984/0001-10

Para mais informações, acesse www.bioinfo.com.br

Bioinfo 01

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioinfo 01

Enviado por

Direitos autorais:

Formatos disponíveis

I

Revista Brasileira de Bioinformática

Ficha catalográfica Publicação Capa

Sandro Alex Batista Alfahelix, CNPJ: 37.524.984/0001-10 Adaptado de rawpixel.com / Freepik

BIOINFO: Revista Brasileira de Bioinformática e Biologia Computacional

1. Bioinformática. 2. Computação. 3. Biologia 4. Sequenciamento Genético.

Mariano, DCB (org.) et al. BIOINFO - Revista Brasileira de Bioinformática e Biologia

Detalhes sobre a licença de uso estão disponíveis em: https://bioinfo.com.br/licenca-de-uso/

Alessandra Lima da Silva Lissur Orsine

1. Como começar na Bioinformática 18

2. Biologia e Computação: Um Casamento Perfeito 28

3. Sequenciamento de primeira geração: método de Sanger 32

4. Sequenciamento NGS: Status e Perspectivas 38

5. Tipos de cobertura em sequenciamento genômico 51

6. Imunobioinformática para leigos 56

7. Alinhamentos estruturais: métodos de sobreposição de proteínas

8. Modelagem computacional de proteínas 114

9. Docagem molecular: em busca do encaixe perfeito e acessível 152

10. Introdução à triagem virtual 158

11. Dinâmica molecular: como mostrar um filme completo em uma

12. Vias biológicas 188

13. Algoritmos Genéticos 199

14. Inteligência Artificial aplicada à Bioinformática 221

15. Métricas de avaliação em machine learning 233

16. Introdução aos bancos de dados biológicos 242

17. Biopython: uma breve introdução à manipulação de dados

18. Liga Brasileira de Bioinformática: desafios para estimular a

19. Uma estratégia para engajamento de participantes de eventos

20. Os 5 passos essenciais para construção de árvores filogenéticas 289

EDI TOR IAL

Editorial – BIOINFO #01

Editorial – BIOINFO #01

Revisão: Filipe Zimmer Dezordi

BIOINFO – Revista Brasileira de Bioinformática. Edição #01. Julho, 2021.

BIOINFO é um projeto amplo que engloba um portal, uma rede de divulgação

Neste editorial, será apresentado uma breve descrição dos fundamentos do

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

recebidos e aprovados pelo processo editorial. Esporadicamente, coletâneas

Figura 1. Fluxograma dos tipos de manuscritos publicados pela BIOINFO.

Recomendações básicas a autores

Fonte: Time News Roman

Como é o processo de avaliação?

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

Um editor irá receber o texto (ou proposta de texto) e irá avaliar se o

O editor(a) revisará o manuscrito ou irá encaminhar a verificação para

2. Revisão teórica: avalia se o conteúdo é de interesse público e é

3. Revisão ortográfico-gramatical: textos devem atender à norma culta

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

Figura 2. Grau de escolaridade dos 30 participantes da pesquisa.

A priori, a pesquisa avaliou o engajamento de estudantes sobre divulgação

Inicialmente questionou-se se os participantes já haviam escrito e publicado

De modo geral, programas de graduação e pós-graduação requerem

Trabalhos de pesquisa são, em geral, publicados em inglês, a principal língua

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

Figura 3. Percentual de respostas para a pergunta: você já escreveu e publicou artigos

Entretanto, ao serem questionados se consideram importante a escrita de

Figura 4. Você considera importante para seu currículo a publicação de textos de

Questionou-se ainda sobre o interesse em produzir manuscritos em língua

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326

são publicados apenas por periódicos acadêmicos, enquanto artigos

Figura 5. Você se interessaria em escrever textos educativos sobre bioinformática em

Os entrevistados foram questionados ainda sobre a preferência de

BIOINFO #01 - Ed. 1; Vol. 1; 2021 doi: 10.51780/978-6-599-275326