Escolar Documentos
Profissional Documentos
Cultura Documentos
Edição
Jul. 2021
Organização
0000-0002-5899-2052
Dr. Diego Mariano
Residente pós-doutoral | Departamento de Ciência da Computação (UFMG)
Editor-in-chief Alfahelix
Revisão
0000-0003-3259-3456
Filipe Zimmer Dezordi
Doutorando | Núcleo de Bioinformática (FIOCRUZ/IAM)
0000-0002-2446-872X
Dr. Pedro Magalhães Martins
Residente pós-doutoral | Departamento de Ciência da Computação (UFMG)
0000-0002-4649-6270
Profa. Joicymara Santos Xavier
Professora assistente | Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
0000-0001-9809-8883
Dr. Thiago de Jesus Sousa
Residente pós-doutoral | Programa de pós-graduação em Bioinformática (UFMG)
0000-0003-4346-9880
Prof. Dr. Leonardo Lima
Professor adjunto | Universidade Federal de São João del-Rei
0000-0002-6910-0697
Dra. Lucianna Helene Santos
Residente pós-doutoral | Programa de pós-graduação em Bioinformática (UFMG)
E-book.
ISBN: 978-6-599-275326
DOI: 10.51780.978-6-599-275326
CDD: 006.5765
CDU: 004.89/576
Ficha Catalográfica – Bibliotecário: Sandro Alex Batista CRB6/2433
Obra gratuita. Proibida a venda.
Todos os direitos autorais pertencem aos autores de cada respectivo capítulo. Todavia, os
autores concordam em compartilhar gratuitamente o conteúdo deste livro e incentivam sua
livre distribuição (desde que os autores dos respectivos capítulos sejam corretamente citados
e/ou que as leis de uso justo sejam respeitadas). Este livro está compartilhado sob a licença
Creative Commons Atribuição-NãoComercial 4.0 Internacional (CC BY-NC 4.0). Você pode
utilizar qualquer conteúdo aqui apresentado, desde que cite:
Esta é uma obra digital. Note que fazemos uso de links e outras propriedades de hipertexto, o que pode
limitar a qualidade de edições impressas deste manuscrito. Entretanto, sinta-se à vontade caso deseje
imprimir este conteúdo. A cópia por meio impresso ou digital (PDF) é permitida, sendo exclusivamente
vedada a venda visando lucro.
Bioinformática clássica
Bioinformática Estrutural
Computação
Ensino
Evolução
E D I TO R IA L
00
BIOINFO - Revista Brasileira de Bioinformática e Biologia Computacional | www.bioinfo.com.br 8
8 de julho de 2021
DOI: 10.51780/978-6-599-275326-00
A
Bioinformática como área de pesquisa tem crescido
exponencialmente nos últimos tempos. Entretanto, ainda há uma
lacuna de material de estudo escrito em língua portuguesa.
Nesse contexto, propõe-se a BIOINFO: Revista Brasileira de
Bioinformática e Biologia Computacional, disponível em www.bioinfo.com.br.
Formato de publicação
A Revista BIOINFO aceita apenas artigos escritos em língua portuguesa. A
revista publica principalmente artigos técnicos, como artigos educacionais,
tutoriais, artigos de descrição ou apresentação de software e artigos de
opinião (Figura 1). Os artigos são publicados online à medida que forem
Tamanho: 12
Espaçamento: 1.5
O texto revisado será enviado de volta para o autor, que terá um período
de até duas semanas para retornar o texto com as correções
implementadas. Caso necessário, novas rodadas de revisão poderão ser
requisitadas. Por não ser um periódico científico, o comitê editorial da
revista reserva o direito de, a qualquer momento, poder realizar alterações
nos textos ou até mesmo removê-los do ar, mesmo após a publicação.
Pesquisa base
Uma pesquisa com estudantes de graduação e pós-graduação de cursos
brasileiros nas áreas de ciências biológicas e bioinformática foi realizada
online de 23/11/2020 a 02/12/2020. A plataforma Google Forms foi utilizada
para coleta de dados. Obteve-se ao todo 30 respostas, sendo a maioria
composta por estudantes de mestrado (Figura 2).
Figura 7. Questão: para sua carreira acadêmica, você considera relevante publicar
capítulos de livros?
Importância na carreira
A seguir realizou-se uma série de oito perguntas relacionadas à importância
dada pelos participantes para um determinado tipo de publicação (Tabela 1).
Cada participante poderia dar uma nota que variava de 1 a 5, sendo:
# Pergunta
Figura 8. Nota média dada pelos participantes para cada uma das questões (Tabela 1).
Para periódicos de alto impacto, adicionou-se como exemplo, revistas classificadas pela
métrica Qualis nos estratos A1 e A2. O Qualis é o sistema de classificação dado pela
agência brasileira CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior)
para periódicos científicos de acordo com suas áreas de atuação. Esse sistema apresenta
classes variando de A1 a C, sendo A1 dado a periódicos de maior impacto e C a periódicos
de menor impacto. Versões prévias do sistema incluíam os estratos: A1, A2, B1, B2, B3,
B4, B5 e C. Uma nova atualização removeu a classe B5 e incluiu as classes A3 e A4.
Conclusão
Os insights obtidos nesta pesquisa serviram como base para modelagem dos
princípios que levaram à fundação da BIOINFO – Revista Brasileira de
Bioinformática e Biologia Computacional. Espera-se que o conteúdo
disponibilizado pela revista BIOINFO possa fomentar o ensino e aprendizagem
de bioinformática no Brasil e em outros países que falam a língua
portuguesa. O projeto BIOINFO está disponível em www.bioinfo.com.br.
8 de junho de 2021
DOI: 10.51780/978-6-599-275326-01
A
Bioinformática é uma ciência que vem crescendo ao longo dos
anos, o que faz com que a adesão profissional nesta área seja
altamente necessária. Mas caso você esteja iniciando na área,
por onde se deve começar? Como dar o pontapé inicial? Como
criar uma formação multidisciplinar e buscar aprimoramento? Esse é o
objetivo deste capítulo.
Estas duas ações te ajudarão muito a crescer. O passo (1) sempre trás
citações de outros artigos da área de estudo que te embasarão no tema. As
introduções de artigos de análise clássicas em bioinformática ou de artigos
mais aplicados, que mesmo assim utilizam o ferramental da área, sempre
proporcionam uma cascata de conhecimento gigantesca. Por sua vez, o
passo (2) acaba sendo essencial para que você inicie um primeiro contato
com os programas utilizados em sua área de estudo e esteja sempre atento,
principalmente aos parâmetros utilizados nos programas de bioinformática,
que são essenciais para reprodução.
Leia os artigos dos programas que você utiliza. Uma das grandes habilidades
que vejo em grandes profissionais da área é tentar ensinar as aplicações de
forma mais clara. Entender o processo por trás do software, e não apenas
apertar um botão, faz com que você consiga interpretar e explicar ele com
mais facilidade. Vindo da área de exatas, a todo o momento você, estudante
ou profissional, teve contato com manuais e afins. Logo, a tendência é saber
lidar com manuais e artigos técnicos, assim, tente entendê-los mais a fundo
e repasse o conhecimento.
Pergunte “por quês” e “ondes”. Por que realizar tal análise? Por que o
mecanismo é este? Por que não executar um pipeline assim? Por que o
experimento é desta maneira? Onde queremos chegar? Onde posso
começar? Onde posso buscar? Se questionar quando não entender os
procedimentos biológicos te trás uma maior bagagem sobre o que está
acontecendo a sua volta e onde você pode ajudar. Não tenha medo.
Aprenda Estatística. Essa dica serve para os dois perfis em questão deste
capítulo. Saber aplicar a estatística correta em seus dados é essencial, e
softwares podem te ajudar neste momento, como o SPSS e o SAS, além das
análises em R.
Habilidades gerais
O profissional em Bioinformática pode atuar em várias frentes,
principalmente nas análises em diferentes dados ômicos. Mas quais as
principais habilidades esperadas por um (a) bioinformata? A partir de alguns
artigos da área, pude resumir tais habilidades [2, 3].
Habilidades em bioinformática
Ferramentas de alinhamento de sequência, como BLAST ou Bowtie;
Conhecimento em biologia
Esse requisito varia de acordo com o seu domínio de estudo ou o trabalho
específico ao qual você está se candidatando. Você provavelmente precisará
de conhecimentos sobre biologia molecular, genética, biologia do câncer
e/ou biologia moderna.
Habilidades estatísticas
Sistemas de software estatístico como SPSS e SAS.
Habilidades de programação
Uma ou mais destas linguagens de programação: R, Perl, Python, Java e
Matlab.
Cursos
Uma das principais maneiras de agregar conhecimento em bioinformática,
seja teórico ou prático, é através de cursos. Dentre eles, destaco:
1. EMBL-EBI treinamentos
2. Biologia Molecular
3. Perl – Tutorial
6. Cursos de R
7. Cursos de R – Video
8. Machine Learning
9. CookBook em R
Canais YouTube
Muitas vezes, através de uma explicação mais detalhada e visual, o
aprendizado se torna mais consolidado. Muitos canais de YouTube, sendo a
maioria de fora do país, tentam explicar a Bioinformática e temas
relacionados de uma maneira mais simples. Dentre eles, destaco:
Livros
Assim como muitos preferem ler livros em PDF, também existe o time
daqueles que preferem o livro em papel. Há muitos livros em Bioinformática
lançados, incluindo aqueles focados em atualizações de pipelines, mas
também existem aqueles que descrevem de conceitos básicos até
avançados. Para vocês, deixo estas opções:
1. Cormen, T. H., Leiserson, C. E., Rivest, R. L., & Stein, C. (2002). Algoritmos: teoria
e prática. Editora Campus, 2, 296.
8. Alberts, B.; Johnson, A.; Lewis, J.; Raff, M.; Roberts, K.; Walter, P. (2017) Biologia
Molecular da Célula. 6a ed. Artmed, Porto Alegre. 1464p.
13. Mariano, Diego & Barroso, J.R.P.M. & Correia, Thiago & Melo-Minardi, Raquel.
(2015). Introdução à Programação para Bioinformática com Biopython.
Disponível em: https://diegomariano.com/introducao-a-programacao-para-
bioinformatica-com-biopython/
Referências
[1] Gauthier, J., Vincent, A. T., Charette, S. J., & Derome, N. (2019). A brief history
of bioinformatics. Briefings in bioinformatics, 20(6), 1981-1996.
[2] Welch, L., Lewitter, F., Schwartz, R., Brooksbank, C., Radivojac, P., Gaeta, B., &
Schneider, M. V. (2014). Bioinformatics curriculum guidelines: toward a
definition of core competencies. PLoS Comput Biol, 10(3), e1003496.
[3] Wu, H., & Palani, A. (2015, October). Bioinformatics curriculum development
and skill sets for bioinformaticians. In 2015 IEEE Frontiers in Education
Conference (FIE) (pp. 1-7). IEEE.
14 de maio de 2021
DOI: 10.51780/978-6-599-275326-02
Ou, para ser mais preciso, o que você ganha quando eles colaboram? Na
verdade, você obtém mal-entendidos: dores de cabeça com novas
terminologias ou significados diferentes para termos existentes e, às vezes,
até uma incapacidade total de entender os termos um do outro [2]. Cada vez
mais, essa “mistura” vai além de uma equipe multidisciplinar, podendo ser
visto em um único cientista, o Bioinformata.
Por outro lado, esse mapa, não está no nível de resolução fornecido pelo
Google Street View. Ao contrário, é um mapa como as cartas náuticas
utilizadas por Colombo, fornecendo um esboço geral, mas muitas áreas estão
incompletas e algumas partes importantes podem estar ausentes e
aguardando para serem descobertas. Mas mesmo com todas essas
deficiências, o mapa ainda é um guia indispensável. O atlas da vida,
fornecido pela biologia computacional, forma o pano de fundo para o
planejamento, execução e interpretação de todos os experimentos de
pequena escala que investigam áreas ainda não mapeadas visando
expandir os limites de conhecimento biológico [6].
Referências
[1] ARAÚJO, Nilberto Dias de; FARIAS, Rodrigo Pessoa de; PEREIRA, Patrícia
Barbosa; FIGUEIRÊDO, Flávia Mota de; MORAIS, Alanna Michely Batista de;
SALDANHA, Livina Costa; GABRIEL, Jane Eyre. A era da bioinformática: seu
potencial e suas implicações para as ciências da saúde. Estudos de Biologia,
[s.l.], v. 30, n. 70/72, p. 143-148, 27 nov. 2008. Pontifícia Universidade Católica do
Paraná – PUCPR. http://dx.doi.org/10.7213/reb.v30i70/72.22819.
[2] BENTLEY, Peter J.. Why Biologists and Computer Scientists Should Work
Together. Lecture Notes In Computer Science, [S.L.], p. 3-15, 2002. Springer
Berlin Heidelberg. http://dx.doi.org/10.1007/3-540-46033-0_1.
[7] What is Systems Biology? Institute for Systems Biology. Disponível em:
<https://isbscience.org/about/what-is-systems-biology/>. Acesso em 01 de
maio de 2020.
S EQU EN CI AM E NT O
Sequenciamento de Sanger
By Editor-in-chief
14 de maio de 2021
DOI: 10.51780/978-6-599-275326-03
N
este artigo, as autoras apresentam uma breve descrição do
método de sequenciamento de primeira geração proposto
Frederick Sanger e colaboradores em 1977. O método de Sanger
foi revolucionário para biologia, sendo considerado um dos
primeiros métodos amplamente adotados para identificação de sequências
de DNA. Boa leitura!
Introdução
O
termo Bioinformática apareceu pela primeira vez na década
de 1970, em um artigo de Paulien Hogeweg e Ben Hesper. Eles a
definiram como: “o estudo de processos informáticos em
sistemas bióticos” [6]. Nesse estudo, os autores abordaram os
processos de informática em sistemas bióticos em várias escalas [7]. Mais do
que isso, nessa década houve avanços nos métodos de biologia molecular
que permitiram uma manipulação mais fácil do ácido desoxirribonucleico
(DNA). A clonagem de genes e a PCR (Polymerase Chain Reaction, de forma
traduzida “reação em cadeia da polimerase”) eram agora comumente
usadas na preparação de bibliotecas de DNA [1]. Naquela época, surgiam
computadores cada vez mais miniaturizados e mais poderosos (antes da
década de 1970, um ‘minicomputador’ tinha razoavelmente as dimensões e o
peso de um pequeno refrigerador doméstico). Além disso, cada vez mais
surgiam novos softwares mais adequados para lidar com tarefas de
bioinformática [4]. Esse contexto propiciou o surgimento de abordagens de
sequenciamento de nucleotídeos, que pode ser resumido como “a
determinação da ordem dos ácidos nucléicos em determinada amostra
biológica” [5].
O método de Sanger
O método de Sanger, como assim ficou conhecido, também denominado
método didesoxi, é a base da primeira geração de sequenciadores. Ele se
baseia no uso de uma enzima DNA polimerase para sintetizar cadeias de DNA
de comprimentos variados. Nesse método, uma fita de DNA servirá como
molde para fita da qual deseja-se descobrir a sequência. Tome como
exemplo a sequência abaixo:
5. Enzima polimerase.
Exemplo
Para ilustrar como funciona o processo de sequenciamento de Sanger, vamos
demonstrar como a sequência-exemplo AGCTTCAGTC seria sequenciada. A
banda que se encontra na posição mais inferior do gel é a que contém o
menor fragmento sequenciado. Supostamente esse fragmento contém
apenas o primer e o primeiro nucleotídeo da sequência. Começamos olhando
para os menores fragmentos. Conforme observado na Figura 4, se em todas
as quatro faixas a banda de gel aparecer na faixa de reação G, o primeiro
nucleotídeo na sequência será G. Então, se a próxima banda aparecer na
faixa A, o segundo nucleotídeo na sequência será A, e assim por diante [1, 3,
8]. Dessa forma, sucessivamente identificaríamos os nucleotídeos da
sequência, conforme o tamanho dos diferentes fragmentos. Conforme pode
ser observado na Figura 5, vemos que os diferentes fragmentos da nossa
sequência-exemplo são ordenados por tamanho.
Conclusão
Essa metodologia de sequenciamento foi tão inovadora que levou o cientista
Frederick Sanger a receber o Prêmio Nobel de Química em 1980. Nas décadas
seguintes, os avanços técnicos automatizaram, aceleraram drasticamente e
refinaram ainda mais o processo de sequenciamento de Sanger. Essas
automatizações do método de Sanger foram essenciais para a conclusão de
várias etapas do Projeto Genoma Humano em 2001 [2]. Esse método, ficou
conhecido como Sequenciamento de Primeira Geração, em contraste aos
métodos mais novos, desenvolvidos desde 2005, que tornaram o
sequenciamento do genoma ainda mais rápido – e muito mais barato. Esses
novos métodos de sequenciamento, denominados de segunda geração,
foram responsáveis pela diminuição drástica do custo do sequenciamento de
DNA [1]. Tendo como consequência o “boom” do número de genomas
sequenciados que vemos atualmente.
Referências
[1] ALBERTS, Bruce et al. Molecular Biology of the Cell. 6. ed. Nova York: Garland
Science, Taylor & Francis Group, Llc, 2015. 1465 p.
[5] HEATHER, James M.; CHAIN, Benjamin. The sequence of sequencers: the
history of sequencing dna. Genomics, [S.L.], v. 107, n. 1, p. 1-8, jan. 2016. Elsevier
BV. http://dx.doi.org/10.1016/j.ygeno.2015.11.003.
[8] NGUYEN, Tien. The race to sequence the human genome. TedEd. Disponível
em: <https://ed.ted.com/lessons/the-race-to-sequence-the-human-
genome-tien-nguyen#digdeeper>. Acesso em 24 de abril de 2020.
12 de junho de 2021
DOI: 10.51780/978-6-599-275326-04
N
ext Generation Sequencing (NGS), ou Sequenciamento de nova
Geração são o conjunto de técnicas de Biologia Molecular e
Bioinformática utilizadas para obter a sequência de ácidos
nucleicos de uma amostra biológica. A utilização dessas
técnicas vêm crescendo vertiginosamente desde a sua criação, quinze anos
atrás, e se expande por várias áreas da ciência como saúde humana,
agricultura e conservação da biodiversidade. Neste artigo mostramos as
principais plataformas de NGS utilizadas atualmente e discutimos as
principais contribuições da técnica, bem como as perspectivas do NGS para o
futuro.
Introdução
O Sequenciamento de Nova Geração (NGS – sigla em inglês para Next
Generation Sequencing ou na tradução “Sequenciamento de Próxima
Geração”) é o nome dado ao conjunto das mais modernas técnicas para a
identificação das sequências de ácidos nucleicos (DNA e RNA) das mais
variadas amostras biológicas, tais como plantas, animais e microrganismos
[1]. São técnicas que se sobrepuseram ao modelo de Sanger [2] após o
Projeto Genoma Humano e que surgiram da necessidade de se produzir
sequenciamentos mais rápidos, econômicos e de qualidade [3].
Principais Plataformas de
Sequenciamento
Pirosequenciamento 454
Após o sucesso na utilização do sequenciamento automatizado usando o
método Sanger pela plataforma ABI (Applied Biosciences), novas formas de
sequenciamento classificados como segunda, terceira geração e quarta
geração, foram desenvolvidos e aperfeiçoados ao longo dos anos. O primeiro
método de sequenciamento de segunda geração lançado foi o
Ion Torrent
O Ion torrent é uma plataforma de sequenciamento considerado uma
transição entre a segunda e a terceira geração de sequenciadores, que foi
lançada no mercado no mês de fevereiro de 2010. Diferente do método
utilizado no Sanger e Illumina (falaremos no próximo tópico), que utilizam
nucleotídeos marcados com fluorocromos para detecção da fita sintetizada
no sequenciamento, a tecnologia Ion utiliza a diferença de pH, sendo um
método conhecido como pHmetro que sequencia DNA [10].
Illumina
A Illumina surgiu após aquisição da empresa Solexa, empresa criadora do
método de amplificação em ponte (bridge amplification), método utilizado
até os dias de hoje nos sequenciadores Illumina. Desde então, a Illumina vem
crescendo no mercado e hoje é a maior plataforma de sequenciamento do
mundo. E não é por acaso que a Illumina cresceu tanto. Isso está ligado a
qualidade de sequenciamento e também nos diferentes kits e metodologias
dispostas, facilitando assim o método para diferentes áreas de interesse
como: diagnóstico molecular, oncologia, genética microbiana, genômica
agrária e forense. Existem opções para sequenciar fragmentos menores de
DNA até um genoma completo. Para sequenciamento de RNA, essa
plataforma utiliza uma técnica baseada em cDNA (DNA complementar)
através de um ensaio de transcrição reversa (conversão de moléculas de
RNA para moléculas de DNA através de uma enzima transcriptase reversa), e
assim, sequenciar o RNA total de uma amostra, o mRNA (RNA mensageiro),
pequenos RNAs ou até mesmo genes específicos [9].
PacBio
Lançado no ano de 2009 pela Pacific Biosciences, PacBio é considerado como
parte da terceira geração de sequenciadores de DNA. Conhecido por um
processo de sigla SMRT (Single-Molecule Real Time), PacBio revolucionou o
método de sequenciamento pelo modo de operação em tempo real
(observação em tempo real dos nucleotídeos adicionados no fragmento
presente no sequenciamento), método que até então nenhum tipo de
sequenciador era capaz de realizar. O PacBio se baseia em enzimas DNA
polimerase intrínsecas, fixadas em um suporte e que catalisam a reação com
a adição de nucleotídeos complementares à fita molde (figura 5).
Juntamente com a DNA polimerase fixada ao suporte, também há um
detector ZMW (Zero-Mode Waveguide Detector). Nesse processo, ocorre a
utilização de fluorescência para detecção dos nucleotídeos que estão sendo
adicionados no momento da reação. À medida que a enzima DNA polimerase
adiciona nucleotídeos complementares a fita única do DNA molde, esses
nucleotídeos liberam uma fluorescência que é detectado pelo detector ZMW,
que está também fixado ao suporte de vidro do sequenciador. Nesse
processo, é utilizada uma DNA polimerase modificada que tem alta afinidade
por nucleotídeos fosfoligados. Esses nucleotídeos também são modificados
pois possuem seis grupos fosfatos, na qual um deles é ligado ao fluoróforo
[9,12].
Nanopore
Seguindo na linha de inovação dos processos de sequenciamento tanto para
otimizar o tempo de processamento e uma maior quantidade de dados,
Oxford Nanopore Technologies lançou em 2012 a tecnologia Nanopore,
pertencente a terceira geração de sequenciadores. Diferente de outros
métodos anteriormente lançados, este não utiliza diferença de pH para
detecção de nucleotídeos, tão pouco uso de nucleotídeos marcados ou
métodos de amplificação em ponte. O método Nanopore, apesar de mais
simples, é um poderoso método de pequena e larga escala. A Oxford
Nanopore lançou dois tipos de sequenciadores para revolucionar a arte do
sequenciamento. O MinION é um dispositivo portátil, do tamanho de um pen-
drive, mas extremamente poderoso quando o assunto é sequenciamento de
genomas. Ele é capaz de sequenciar até 1Gb de DNA. Já o segundo
sequenciador que foi lançado, o GridION, que possui tamanho mais
avantajado, é voltado para o sequenciamento de genes em larga escala [13].
Contribuições do NGS
O output dos sequenciadores de nova geração consiste primariamente em
um arquivo de extensão .fastq ou .fast5 . Esse arquivo contém as
sequências identificadas pela máquina e informações sobre elas, como a
qualidade da identificação de cada base. Entretanto, esse arquivo sozinho diz
muito pouco sobre as amostras sequenciadas, pois precisa ser processado
adequadamente para que demonstre informações de forma gráfica e
passível de interpretação. Dessa forma, um dos primeiros grandes feitos do
NGS foi promover o avanço dos programas e scripts utilizados para processar
esses dados gerados. Iniciativas como o Scaffold Builder para montagens de
genomas [16], dada2 para a análise de amplicons microbianos [17] e o Canu
para trabalho com reads longos e curtos ao mesmo tempo (como no caso
da utilização de duas plataformas de sequenciamento diferentes para a
mesma amostra) [18] são exemplos de tecnologias que foram desenvolvidas
para resolver problemas que não existiam antes do advento do NGS e
melhorar o processamento de dados.
Conclusões e Perspectivas
O sequenciamento de nova geração é uma ferramenta de grande poder e
que permitiu e tem permitido enormes avanços no conhecimento. O
barateamento e a facilidade de uso das diferentes plataformas tendem a
ampliar cada vez mais seu uso e as suas aplicações. Novas plataformas que
permitem o sequenciamento fora do laboratório (como no caso do MinION)
ainda podem levar o NGS a lugares inóspitos e ainda inexplorados, provendo
as ferramentas necessárias para conhecer toda uma biodiversidade até
então desconhecida [42].
Tudo à nossa volta parece estar ligado ao NGS, e de certa forma está. Se
considerarmos que tudo que é vivo apresenta material genético, tudo pode
ser sequenciado e gerar conhecimento. Não sabemos ao certo para onde
esse conhecimento convergirá, mas as perspectivas são de que cada vez
mais as letras A, T, C e G passem a dizer muito mais sobre o mundo à nossa
volta do que os nossos olhos são capazes de enxergar.
Referências
1. Varstation. NGS: O que é Sequenciamento de Nova Geração? [Internet].
Varsomics. 2019 [cited 2021 May 22]. Available from:
https://blog.varsomics.com/o-que-e-sequenciamento-de-nova-geracao-
ngs/
12. Metzker ML. Sequencing technologies — the next generation. Nat Rev Genet.
2010;11:31–46.
14. Laszlo AH, Derrington IM, Ross BC, Brinkerhoff H, Adey A, Nova IC, et al.
Decoding long nanopore sequencing reads of natural DNA. Nat Biotechnol.
2014;32:829–33.
15. Schneider GF, Dekker C. DNA sequencing with nanopores. Nat Biotechnol.
2012;30:326–8.
16. Silva GG, Dutilh BE, Matthews TD, Elkins K, Schmieder R, Dinsdale EA, et al.
Combining de novo and reference-guided assembly with scaffold_builder.
Source Code Biol Med. 2013;8:23.
17. Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJA, Holmes SP.
DADA2: High-resolution sample inference from Illumina amplicon data. Nat
Methods. 2016;13:581–3.
18. Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM. Canu:
scalable and accurate long-read assembly via adaptive k-mer weighting and
repeat separation. Genome Res. 2017;27:722–36.
19. Stratton MR, Campbell PJ, Futreal PA. The cancer genome. Nature.
2009;458:719–24.
24. Itzhaki RF, Lathe R, Balin BJ, Ball MJ, Bearer EL, Braak H, et al. Microbes and
Alzheimer’s Disease. J Alzheimers Dis JAD. 2016;51:979–84.
25. Romero R, Hassan SS, Gajer P, Tarca AL, Fadrosh DW, Bieda J, et al. The
vaginal microbiota of pregnant women who subsequently have spontaneous
preterm labor and delivery and those with a normal delivery at term.
Microbiome. 2014;2:18.
26. de Freitas AS, Dobbler PCT, Mai V, Procianoy RS, Silveira RC, Corso AL, et al.
Defining microbial biomarkers for risk of preterm labor. Braz J Microbiol
28. Sleator RD. The human superorganism – Of microbes and men. Med
Hypotheses. 2010;74:214–5.
29. Turner TR, James EK, Poole PS. The plant microbiome. Genome Biol.
2013;14:209.
30. de Freitas AS, de David DB, Takagaki BM, Roesch LFW. Microbial patterns in
rumen are associated with gain of weight in beef cattle. Antonie Van
Leeuwenhoek. 2020;113:1299–312.
31. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, et al. The
Sequence of the Human Genome. Science. American Association for the
Advancement of Science; 2001;291:1304–51.
32. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial
sequencing and analysis of the human genome. Nature. Nature Publishing
Group; 2001;409:860–921.
33. The Sequencing Center. How long does genome sequencing take?
[Internet]. 2020 [cited 2021 May 25]. Available from:
https://thesequencingcenter.com/knowledge-base/how-long-does-
genome-sequencing-take/
35. Wang H, Xu X, Vieira FG, Xiao Y, Li Z, Wang J, et al. The Power of Inbreeding:
NGS-Based GWAS of Rice Reveals Convergent Evolution during Rice
Domestication. Mol Plant. 2016;9:975–85.
36. Carvalho EL, Maciel LF, Macedo PE, Dezordi FZ, Abreu MET, Victória F de C, et
al. De novo Assembly and Annotation of the Antarctic Alga Prasiola crispa
Transcriptome. Front Mol Biosci [Internet]. Frontiers; 2018 [cited 2021 May 25];4.
Available from:
https://www.frontiersin.org/articles/10.3389/fmolb.2017.00089/full
38. Freitas AS, Anunciação RR, D’Oliveira-Matielo CB, Stefenon VM. Chloroplast
DNA: A Promising Source of Information for Plant Phylogeny and Traceability.
2018;1:4.
39. Matielo CBD, Lemos RPM, Sarzi DS, Machado L de O, Beise DC, Dobbler PCT,
et al. Whole Plastome Sequences of Two Drug-Type Cannabis: Insights Into the
Use of Plastid in Forensic Analyses. J Forensic Sci. 2020;65:259–65.
40. Resende PC, Naveca FG, Lins RD, Dezordi FZ, Ferraz MVF, Moreira EG, et al.
The ongoing evolution of variants of concern and interest of SARS-CoV-2 in
Brazil revealed by convergent indels in the amino (N)-terminal domain of the
Spike protein. medRxiv. Cold Spring Harbor Laboratory Press;
2021;2021.03.19.21253946.
41. Motayo BO, Oluwasemowo OO, Olusola BA, Akinduti PA, Arege OT, Obafemi
YD, et al. Evolution and genetic diversity of SARS-CoV-2 in Africa using whole
genome sequences. Int J Infect Dis IJID Off Publ Int Soc Infect Dis. 2021;103:282–
7.
43. Rogers SL, Patrinos GP, Mitropoulou C, Formea CM, Jones JS, Brown BG.
Conference report: inaugural Pharmacogenomics Access and Reimbursement
Symposium. Pharmacogenomics [Internet]. Future Medicine; 2021 [cited 2021
May 29]; Available from: https://www.futuremedicine.com/doi/10.2217/pgs-
2021-0016
45. Van Puyvelde S, Argimon S. Sequencing in the time of Ebola. Nat Rev
Microbiol. Nature Publishing Group; 2019;17:5–5.
46. Van Emon JM. The Omics Revolution in Agricultural Research. J Agric Food
Chem. 2016;64:36–44.
2 de julho de 2021
DOI: 10.51780/978-6-599-275326-0
C
obertura é um conceito bastante citado quando se trata de
sequenciamento de genomas. Dependendo do contexto, o
conceito de cobertura pode ter diferentes significados, o que
pode gerar um pouco de confusão. Neste artigo, serão
apresentadas terminologias para diferenciar os dois tipos de cobertura:
vertical e horizontal. Em sequenciamento NGS, cobertura vertical indica a
quantidade média de leituras que cobrem cada região de um genoma com
base no mapeamento (por exemplo, profundidade de cobertura de 30x).
Cobertura horizontal indica o percentual estimado do genoma que foi
sequenciado, ou seja, o quanto do genoma final está representado no total
de bases sequenciadas (por exemplo, 95% de amplitude de cobertura).
Introdução
Durante o projeto de sequenciamento do genoma humano, o conceito de
cobertura era utilizado para identificar o quanto faltava para conclusão.
Temos que levar em consideração que o Projeto Genoma Humano levou 13
anos para ser concluído. Logo, naquela época, era relevante saber, à medida
do tempo, qual o percentual dos três bilhões de pares de base (3 Gb) do
genoma humano já havia sido identificado e quanto ainda faltava. Com o
surgimento da técnica de sequenciamento de Shotgun, o conceito de
cobertura ganhou um novo sentido.
Entretanto, nem tudo são flores! Na teoria, várias cópias do genoma completo
fragmentadas em posições aleatórias poderiam ser reordenadas por meio de
algoritmos de montagem. Mas na prática, diversos problemas dificultam esse
processo. Algumas regiões do genoma podem ser perdidas durante o
processo de fragmentação e/ou amplificação. Outras podem ser menos
propensas ao tipo de sequenciamento adotado (vide o caso dos
homopolímeros na plataforma Ion Torrent, em que há grande dificuldade em
identificar repetições de um mesmo nucleotídeo em sequência, como a
sequência “TTTTTT”). Além disso, em determinados genomas há sequências
repetitivas que atrapalham o processo de reordenação in silico, como regiões
de transposons, repetições tandem e regiões codificadoras de RNA
ribossomal. Com tudo isso, é possível concluir que, ao ordenar todos os
fragmentos lidos em um sequenciamento, nem todas as partes do genoma
serão representadas por uma mesma quantidade de sequências.
Definição de cobertura
No exemplo anterior, dissemos que a sequência possuía uma cobertura de
2,4x e de 67%. Qual o valor indica a real cobertura? A resposta é ambos.
Podemos dizer que 2,4x é a profundidade de cobertura e 67% é a largura da
cobertura no genoma final.
Glossário de sinônimos
Cobertura horizontal: cobertura, amplitude de cobertura, largura de
cobertura, percentual do genoma sequenciado.
Referências
[1] Commins, J., Toft, C., Fares, M. A. – “Computational Biology Methods and
Their Application to the Comparative Genomics of Endocellular Symbiotic
Bacteria of Insects.” Biol. Procedures Online (2009).
[3] SIMS, David; SUDBERY, Ian; ILOTT, Nicholas E.; HEGER, Andreas; PONTING, Chris
P. Sequencing depth and coverage: key considerations in genomic analyses.
Nature Reviews. Volume 15, p. 121-132. 2014.
8 de junho de 2021
DOI: 10.51780/978-6-599-275326-06
N
Download PDF
Além disso, aqui nós vamos falar sobre os tópicos de vacinologia reversa,
genômica subtrativa e, para explicitar o trabalho da área, vamos fechar com
um pequeno estudo de caso, aplicando algumas das técnicas abordadas em
imunobioinformática.
Imunologia básica
O primeiro desses conceitos básicos em imunologia clássica é o dos tipos de
imunidade do sistema imune. Mais especificamente, as imunidades inata e
adaptativa.
Para nos proteger dessas várias ameaças e assim evitar possíveis invasões
que desequilibrem a saúde do indivíduo, o nosso organismo dispõe de
diversas barreiras físicas, químicas e biológicas, como a pele, cílios das
pálpebras e sistema respiratório, lágrimas, dentre outras (Figura 1). Entretanto,
no caso de uma invasão inevitável, entram em ação as nossas próximas
linhas de defesa da saúde: as linhagens celulares do sistema imune [1].
Essas células podem ser de diversos tipos e cumprem distintas funções nesse
campo de batalha. Por exemplo, as células de leucócitos, neutrófilos e
macrófagos atuam diretamente no combate de agentes infecciosos.
Anticorpos produzidos pelos linfócitos do tipo B, ou células do tipo B, também
podem atuar bloqueando a ação e eliminando patógenos.
Você sabia?
Existem dois tipos de MHC: MHC classe I e MHC classe II. MHC classe I se
apresenta a células T citotóxicas, TCD8+, e MHC classe II se apresenta às
células T auxiliares, TCD4+. Os termos “CD4” e “CD8” positivos fazem
referência a expressão na superfície dos linfócitos T dessas moléculas que
Vacinologia Reversa
Para começar: as vacinas representam a estratégia profilática mais eficaz na
história da medicina para o controle da propagação de doenças infecciosas
– aumentando sem precedentes a expectativa de vida humana. Desde o seu
advento, a erradicação da varíola e a redução massiva de outras doenças
infecciosas, como a poliomielite, o sarampo e a difteria, foram algumas das
principais conquistas em saúde pública do século passado, todas
alcançadas através da vacinação [6].
Você sabia?
Figura 5. Pipeline de vacinologia reversa aplicada a MenB. A partir das 2.158 open reading
frames (ORFs) identificadas no genoma sequenciado MC58 em 1998, as análises de
bioinformática previram 570 proteínas que eram expostas na superfície, secretadas ou
homólogas a fatores de virulência conhecidos. Cinco antígenos finalmente selecionados
foram co-formulados com vesículas de membrana externa (OMV) e considerados seguros,
imunogênicos e protetores em estudos clínicos em adultos, adolescentes e crianças,
recebendo autorização de comercialização em 2013. Fonte: adaptado de Tordello et al.,
2017 [10].
Vamos lá!
Genômica Subtrativa
Para você, leitor, entender a necessidade de que se desenvolvam novas
drogas: no ano de 2020, a Organização Mundial da Saúde (OMS) declarou que
a resistência antimicrobiana (AMR) é uma das 10 principais ameaças à saúde
pública e ao desenvolvimento global enfrentadas pela humanidade no séc.
Além disso, vários dos medicamentos utilizados pela medicina atual para o
tratamento de agentes infecciosos causam efeitos colaterais de pequeno a
grande porte, o que também compromete a qualidade de vida dos pacientes.
Todos esses fatores somados impõem a necessidade de se identificar drogas
novas e mais eficazes para o combate de doenças [35].
Por vias de praxe, um alvo de drogas proteico deve atender a quatro critérios
principais:
Mas vale lembrar que, enquanto não chega a sua vez de ser vacinado, a
melhor maneira de se prevenir e retardar a transmissão da doença ainda
é se manter bem-informado. Proteja a si mesmo e as outras pessoas
lavando as mãos ou esfregando-as frequentemente com álcool, sem
tocar no rosto, e evitando sempre aglomerações.
Conclusão
Apesar dos esforços e avanços da imunobioinformática, vários patógenos
persistem sem alternativas viáveis de tratamento. Seja por apresentarem
infecções resistentes a múltiplas drogas, por ainda não termos fármacos
eficazes contra esses patógenos ou por eles disporem de fatores de
virulência que ainda são desconhecidos. Sendo assim, as abordagens de
vacinologia reversa e de genômica comparativa, associadas a todas as
demais ciências ômicas, são fundamentais para a geração de novas
alternativas de prevenção e tratamento, tais como preparações vacinais e
alvos farmacológicos.
Referências
[1] P.J. Delves, S.J. Martin, D.R. Burton, I.M. Roitt, ROITT, FUNDAMENTOS DE
IMUNOLOGIA, 2014.
[3] British Society for Immunology, Helper and Cytotoxic T Cells | British Society
for Immunology, (2020). https://www.immunology.org/public-
information/bitesized-immunology/cells/helper-and-cytotoxic-t-cells
(accessed May 31, 2021).
[4] A.C. arl. Goldberg, L.V. icent. Rizzo, MHC structure and function – antigen
presentation. Part 1, Einstein (Sao Paulo). 13 (2015) 153–156.
https://doi.org/10.1590/S1679-45082015RB3122.
[5] A.R. Santos, V.B. Pereira, E. Barbosa, J. Baumbach, J. Pauling, R. Röttger, M.Z.
Turk, A. Silva, A. Miyoshi, V. Azevedo, Mature Epitope Density – A strategy for
target selection based on immunoinformatics and exported prokaryotic
proteins, BMC Genomics. 14 (2013) S4. https://doi.org/10.1186/1471-2164-14-S6-
S4.
[7] D.L. Doolan, S.H. Apte, C. Proietti, Genome-based vaccine design: The
promise for malaria and other infectious diseases, Int. J. Parasitol. 44 (2014)
901–913. https://doi.org/10.1016/j.ijpara.2014.07.010.
[9] Y. He, Z. Xiang, H.L.T. Mobley, Vaxign: The first web-based vaccine design
program for reverse vaccinology and applications for vaccine development, J.
Biomed. Biotechnol. 2010 (2010) 297505. https://doi.org/10.1155/2010/297505.
[15] A.P. Bhavsar, J.A. Guttman, B.B. Finlay, Manipulation of host-cell pathways
by bacterial pathogens, Nature. 449 (2007) 827–834.
https://doi.org/10.1038/nature06247.
[17] R. Simeone, D. Bottai, R. Brosch, ESX/type VII secretion systems and their
role in host-pathogen interaction, Curr. Opin. Microbiol. 12 (2009) 4–10.
https://doi.org/10.1016/j.mib.2008.11.003.
[21] S.K. Dhanda, P. Vir, D. Singla, S. Gupta, S. Kumar, G.P.S. Raghava, A Web-
Based platform for designing vaccines against existing and emerging strains
of mycobacterium tuberculosis, PLoS One. 11 (2016).
https://doi.org/10.1371/journal.pone.0153771.
[22] A.S. De Groot, Immunomics: Discovering new targets for vaccines and
therapeutics, Drug Discov. Today. 11 (2006) 203–209.
https://doi.org/10.1016/S1359-6446(05)03720-7.
[23] F.A. Bidmos, S. Siris, C.A. Gladstone, P.R. Langford, Bacterial vaccine antigen
discovery in the reverse vaccinology 2.0 Era: Progress and challenges, Front.
Immunol. 9 (2018) 2315. https://doi.org/10.3389/fimmu.2018.02315.
[24] K. Naz, A. Naz, S.T. Ashraf, M. Rizwan, J. Ahmad, J. Baumbach, A. Ali, PanRV:
Pangenome-reverse vaccinology approach for identifications of potential
vaccine candidates in microbial pangenome, BMC Bioinformatics. 20 (2019)
123. https://doi.org/10.1186/s12859-019-2713-9.
[25] M.A. Ullah, B. Sarkar, S.S. Islam, Exploiting the Reverse Vaccinology
Approach to Design Novel Subunit Vaccine against Ebola Virus,
Immunobiology. (2020) 2020.01.02.20016311.
https://doi.org/10.1101/2020.01.02.20016311.
[26] E.A. Salvador, G.A. Pires de Souza, L.C. Cotta Malaquias, T. Wang, L.F. Leomil
Coelho, Identification of relevant regions on structural and nonstructural
proteins of Zika virus for vaccine and diagnostic test development: an in silico
approach, New Microbes New Infect. 29 (2019) 100506.
https://doi.org/10.1016/j.nmni.2019.01.002.
[28] T.C.V. Rodrigues, A.K. Jaiswal, A. De Sarom, L.D.C. Oliveira, C.J.F. Oliveira, P.
Ghosh, S. Tiwari, F.M. Miranda, L.D.J. Benevides, V.A.D.C. Azevedo, S.D.C. Soares,
Reverse vaccinology and subtractive genomics reveal new therapeutic
targets against Mycoplasma pneumoniae: A causative agent of pneumonia, R.
Soc. Open Sci. 6 (2019). https://doi.org/10.1098/rsos.190907.
[29] C.L. Araújo, J. Alves, W. Nogueira, L.C. Pereira, A.C. Gomide, R. Ramos, V.
Azevedo, A. Silva, A. Folador, Prediction of new vaccine targets in the core
genome of Corynebacterium pseudotuberculosis through omics approaches
and reverse vaccinology, Gene. 702 (2019) 36–45.
https://doi.org/10.1016/j.gene.2019.03.049.
[33] A.K. Jaiswal, S. Tiwari, S.B. Jamal, D. Barh, V. Azevedo, S.C. Soares, An in
silico identification of common putative vaccine candidates against
treponema pallidum: A reverse vaccinology and subtractive genomics based
approach, Int. J. Mol. Sci. 18 (2017). https://doi.org/10.3390/ijms18020402.
[34] W.H. Organization, World health statistics 2015, World Health Organization,
Geneva PP – Geneva, n.d.
[35] P.J. Madabhavi, V.G. Shanmuga Priya, R.N. R, P.S. Honagudi, S. Jiddagi,
SUBTRACTIVE GENOMICS – A Promising way To Combat Pathogens (A Review),
Int. Res. J. Eng. Technol. (2015) 2395–56.
[36] V. Mountain, Astex, Structural Genomix, and Syrrx, Chem. Biol. 10 (2003)
95–98. https://doi.org/10.1016/S1074-5521(03)00030-9.
[38] D. Barh, S. Tiwari, N. Jain, A. Ali, A.R. Santos, A.N. Misra, V. Azevedo, A. Kumar,
In silico subtractive genomics for target identification in human bacterial
pathogens, Drug Dev. Res. 72 (2011) 162–177. https://doi.org/10.1002/ddr.20413.
[39] M.I. Hosen, A.M. Tanmoy, D. Al Mahbuba, U. Salma, M. Nazim, M.T. Islam, S.
Akhteruzzaman, Application of a subtractive genomics approach for in silico
identification and characterization of novel drug targets in Mycobacterium
tuberculosis F11, Interdiscip. Sci. Comput. Life Sci. 6 (2014) 48–56.
https://doi.org/10.1007/s12539-014-0188-y.
[40] H. Luo, Y. Lin, F. Gao, C.T. Zhang, R. Zhang, DEG 10, an update of the
database of essential genes that includes both protein-coding genes and
noncoding genomic elements, Nucleic Acids Res. 42 (2014).
https://doi.org/10.1093/nar/gkt1131.
[41] K.R. Sakharkar, M.K. Sakharkar, V.T.K. Chow, Biocomputational strategies for
microbial drug target identification., Methods Mol. Med. 142 (2008) 1–9.
https://doi.org/10.1007/978-1-59745-246-5_1.
[42] A.G. Holman, P.J. Davis, J.M. Foster, C.K. Carlow, S. Kumar, Computational
prediction of essential genes in an unculturable endosymbiotic bacterium,
Wolbachia of Brugia malayi, BMC Microbiol. 9 (2009).
https://doi.org/10.1186/1471-2180-9-243.
[44] T. Sterling, J.J. Irwin, ZINC 15 – Ligand Discovery for Everyone, J. Chem. Inf.
Model. 55 (2015) 2324–2337. https://doi.org/10.1021/acs.jcim.5b00559.
[46] O. Trott, A.J. Olson, Software news and update AutoDock Vina: Improving
the speed and accuracy of docking with a new scoring function, efficient
optimization, and multithreading, J. Comput. Chem. 31 (2010) 455–461.
https://doi.org/10.1002/jcc.21334.
[47] Muniba Faiza, How to perform docking in a specific binding site using
AutoDock Vina? | Bioinformatics Review, (2016).
https://bioinformaticsreview.com/20161214/how-to-perform-docking-in-a-
specific-binding-site-using-autodock-vina/ (accessed June 3, 2021).
[50] R.P. Chakrabarty, A.S.M.R.U. Alam, D.K. Shill, A. Rahman, Identification and
qualitative characterization of new therapeutic targets in Stenotrophomonas
maltophilia through in silico proteome exploration, Microb. Pathog. 149 (2020)
104293. https://doi.org/10.1016/j.micpath.2020.104293.
[51] M.T. Khan, A. Mahmud, A. Iqbal, S.F. Hoque, M. Hasan, Subtractive genomics
approach towards the identification of novel therapeutic targets against
human Bartonella bacilliformis, Informatics Med. Unlocked. 20 (2020) 100385.
https://doi.org/10.1016/j.imu.2020.100385.
[53] E.O.-O. and J.H. Max Roser, Hannah Ritchie, Coronavirus Pandemic
(COVID-19) – the data – Statistics and Research – Our World in Data,
OurWorldInData.Org. (2020). https://ourworldindata.org/coronavirus-data
(accessed May 31, 2021).
[57] J. Ma, D. Su, Y. Sun, X. Huang, Y. Liang, L. Fang, Y. Ma, W. Li, P. Liang, S. Zheng,
Cryo-electron Microscopy Structure of S-Trimer, a Subunit Vaccine Candidate
for COVID-19, J. Virol. 95 (2021). https://doi.org/10.1128/jvi.00194-21.
[59] A.S. Rose, A.R. Bradley, Y. Valasatava, J.M. Duarte, A. Prlic, P.W. Rose, NGL
viewer: Web-based molecular graphics for large complexes, Bioinformatics. 34
(2018) 3755–3758. https://doi.org/10.1093/bioinformatics/bty419.
[60] C. Zimmer, Covid-19 Vaccine Tracker: Latest Updates – The New York
Times, New York Times. (2021).
https://www.nytimes.com/interactive/2020/science/coronavirus-vaccine-
tracker.html (accessed May 31, 2021).
Alinhamentos estruturais
By Laboratório de Bioinformática e Sistemas
12 de março de 2021
DOI: 10.51780/978-6-599-275326-07
A
linhamento estrutural consiste na tentativa de encontrar
semelhanças entre duas estruturas tridimensionais de
moléculas, como por exemplo, peptídeos, ligantes e proteínas [1].
A estrutura tridimensional de proteínas está estritamente ligada
à sua atividade biológica em uma célula [2]. Portanto, conhecer a estrutura
das proteínas e poder encontrar equivalências nessas estruturas é um fator
crucial no campo da biologia estrutural [2]. Além disso, uma vez que estudos
sugerem que a evolução tende a conservar a estrutura de macromoléculas,
similaridades estruturais entre duas proteínas podem ser usadas como
indícios de relações evolutivas ou funções comuns entre as estruturas
sobrepostas [1]. Essas relações, por sua vez, são fundamentais na predição da
interação entre proteínas [4]. Nesse contexto, a determinação entre
similaridades entre estruturas se mostra de grande importância para uma
gama de estudos em bioinformática estrutural.
(Figura 3). Caso tenha mais de duas estruturas para serem alinhadas, uma
delas deverá ser utilizada como estrutura-referência, enquanto todas as
outras serão alinhadas em relação a ela.
Figura 4. Possíveis rotações que uma bola poderia sofrer. (1) rotação em sentido horário,
(2) sentido anti-horário, (3) direita, (4) esquerda, (5) acima e (6) abaixo. Observe que
todos os movimentos ocorrem com base em uma referência (no caso, o centro da bola).
Fonte: próprio autor.
Agora, vamos supor que Joãozinho, um menino muito levado da rua, colou
duas bolas de futebol usando supercola. Nesse caso, ao aplicar um
movimento de rotação em qualquer uma das bolas, a outra também será
afetada (Figura 5). Por exemplo, se rotacionarmos a bola 1, as coordenadas
dela não serão alteradas (afinal ela se encontra no mesmo lugar). Entretanto,
as coordenadas da bola 2 serão afetadas.
Sistemas de pontuação
(1)
Figura 8. Exemplo hipotético entre dois alinhamentos diferentes entre dois aminoácidos
triptofano (verde e azul). Quanto mais bem sobrepostas, menor o RMSD. Gerado usando
PyMOL. Fonte: próprio autor.
Executive: RMSD = 0.000 (162 to 162 atoms)
Note que todos os 162 átomos foram usados na comparação (foi usado
apenas um átomo para cada resíduo). Como as coordenadas desses
átomos são idênticas, o resultado final de RMSD será igual a zero,
indicando um alinhamento perfeito.
Figura 10. Terminal de comandos do PyMOL. Comando fetch é usado para baixar
estruturas. Fonte: próprio autor.
fetch 4mdp
fetch 3vik
Figura 11. Visualizações das proteínas beta-glicosidase do fungo Humicola insolens (PDB
ID: 4MDP) – cartoon verde – e da beta-glicosidase do cupim Neotermes koshunensis (PDB
ID: 3VIK) – cartoon azul – na interface do PyMOL. Fonte: próprio autor.
Figura 12. Alinhamento estrutural usando a interface do PyMOL. Fonte: próprio autor.
O PyMOL irá gerar uma visualização mais próxima da região desejada (Figura
16). Você pode ainda usar o mesmo processo para centralizar a região
desejada (no caso, clique na opção center). Ou ainda pode esconder a
região clicando em hide, exibir os rótulos com nomes dos aminoácidos e
átomos clicando em label, ou alterar as cores clicando em color.
Figura 16. Zoom em uma região alinhada no PyMOL. Fonte: próprio autor.
Aqui podemos ver que ambas as sequências possuem 164 aminoácidos com
uma identidade superior a 99% (163 dos 164 resíduos coincidem). Veja que o
alinhamento nos dá uma tabela de correspondência entre resíduos. Por
exemplo, a metionina na posição 1 (resíduo M1) de 2LZM é equivalente a
metionina na posição 1 de 1T6H. O mesmo vale para N2, I3, F4, E5 e assim
sucessivamente. De fato, essa regra valerá para quase todos os resíduos
(exceto F153 de 2LZM). Por ter estruturas bastante similares, esse exemplo
poderá facilitar a compreensão da primeira etapa da estratégia de
alinhamento do PyMOL.
Figura 17. Estruturas de 2LZM e 1T6H. (A) Visualização em cartoon e linhas azuis de
2LZM. (B) Visualização dos carbonos-alfa de 2LZM como esferas azuis. (C, F) Linhas que
interligam os carbonos-alfa vizinhos foram utilizadas para destacar a forma da proteína.
(D) Visualização em cartoon e linhas amarelas de 1T6H. (E) Visualização dos carbonos-alfa
de 1T6H como esferas amarelas. Figura gerada com PyMOL. Fonte: próprio autor.
PyMOL irá utilizar apenas as posições das coordenadas desses átomos para a
realização da sobreposição. É importante levar em consideração que apesar
das proteínas serem bastante parecidas, as coordenadas dos átomos são
bastante diferentes. Na Figura 18 podemos ver que, quando as duas
estruturas são plotadas em um mesmo espaço conformacional, isto é,
quando abertas em uma mesma sessão do PyMOL, os átomos estão
localizados em posições diferentes.
Figura 18. Estruturas de 2LZM (azul) e 1T6H (amarelo) quando plotadas em um mesmo
espaço conformacional. Fonte: próprio autor.
Figura 20. Sobreposição entre carbonos-alfa (esquerda) de 2LZM (azul) e 1T6H (amarelo).
À direita podemos ver as estruturas completas sobrepostas representadas em forma de
cartoon. Fonte: próprio autor.
fetch 1mdb
fetch 2lzm
Figura 22. Alinhamento estrutural de 1mdb e 2lzm. Linhas amarelas representam pontos
em que houve uma tentativa de alinhamento. Fonte: próprio autor.
Figura 23. Alinhamento de sequências de 1mdb e 2lzm. Percebam que há poucos resíduos
similares. Fonte: próprio autor.
P
yMOL é uma ferramenta de visualização de moléculas com uma
grande quantidade de recursos em sua interface. Dentre esses
recursos, se encontra o painel do terminal de linha de comandos.
Por meio desse terminal é possível realizar inúmeras análises,
como por exemplo, alinhamento de estruturas. Esse tipo de alinhamento pode
ser realizado pela interface gráfica, entretanto, usando o terminal podemos
facilmente realizar um alinhamento usando o comando align.
onde objeto1 e objeto2 são os dois nomes dos objetos que armazenam as
estruturas que se deseja alinhar (os nomes são exibidos no painel à direita).
Figura 24. Alinhamento de sequências de 1mdb e 2lzm usando o comando align do PyMOL.
Fonte: próprio autor.
Note que as sequências de 1mdb e 2lzm são pouco similares. Vemos também
uma baixa similaridade na estrutura; entretanto, ao utilizar o comando super,
PyMOL encontra partes da estrutura secundária que se coincidem (vemos por
exemplo, as hélices-alfa que se sobrepõe). Isso demonstra a maior eficácia
do comando super para detecção de estruturas secundárias mais similares
quando comparado ao método tradicional (comando align).
Figura 28. Executando o TM-align para as entradas 3vik e 4mdp. Os arquivos PDB foram
baixados em https://www.rcsb.org/structure/3vik e https://www.rcsb.org/structure/4mdp,
respectivamente. Fonte: próprio autor.
antes de utilizá-la, você terá que realizar a compilação do código. Para isso,
execute no terminal Linux os comandos:
1. mkdir tm
2. wget https://zhanglab.ccmb.med.umich.edu/TM-align/TMalign.cpp
./tmalign -h
Isso fará com que o TM-align alinhe as duas proteínas de exemplo e escreva
o resultado dentro da pasta 3VIK_x_4MDP. Além disso, os arquivos de saída
serão iniciados com a palavra “Out” (Figura 31), sendo “Out.pdb” o arquivo
correspondente à proteína rotacionada escrita em formato PDB.
import os
os.system("./tmalign protein1.pdb protein2.pdb")
(A)
(B)
(C)
Nesse exemplo do alinhamento de 3VIK com 4MDP (Figura 32B), vemos que o
Multiprot considerou que o resíduo V28 da cadeia A de 3VIK está em uma
posição equivalente ao resíduo M1 da cadeia A de 4MDP. Vemos ainda outras
correspondências como T30 com L472, F31 com L3, P32 com P4, D33 com P5,
E34 com D6 e assim por diante. Perceba que os resíduos não precisam ser
iguais para que Multiprot indique uma correspondência. Para que haja
correspondência, Multiprot detecta o resíduo mais próximo da referência
quando as proteínas forem sobrepostas. Parâmetros podem ser utilizados
ainda para definir qual será o ponto de referência (em geral, é utilizada a
coordenada do carbono-alfa). Para conferir quais parâmetros podem ser
modificados, consulte a documentação.
M
USTANG (MUltiple protein STructural AligNment alGorithm) [10]
é um software desenvolvido para realizar alinhamento
estrutural múltiplo de proteínas (Figura 33). Possui código-
aberto desenvolvido em C++. Sua estratégia de alinhamento
sobrepõe as estruturas a partir das posições espaciais dos carbonos alfa (Cα)
dos aminoácidos. O seu algoritmo utiliza uma heurística progressiva em
pares e passos de refinamentos são realizados para otimizar o resultado, a
fim de encontrar bons alinhamentos.
Instalação do MUSTANG
Para Windows, baixe e instale MinGW. Após a instalação, irá surgir uma janela
para gerenciar os compilares a serem instalados. Nela, clique em “All
Packages” e marque os pacotes “mingw32-gcc-v3-g++-bin” e “mingw32-
make-bin” (Figura 34).
Figura 34. Instalando os pacotes necessários para compilar o MUSTANG. Fonte: próprio
autor.
Como resultado, obteve-se um arquivo no formato HTML (Figura 36). Por ele é
possível ver o alinhamento estrutural simplificado em suas sequências. O
formato HTML permite que o arquivo seja visualizado em navegadores, como
Chrome e Firefox, e com isso, destacando com cores a natureza química dos
aminoácidos.
Perceba que acima de cada bloco de linhas dos alinhamentos, temos uma
marcação de valor que indica se a posição é conservada ou não (valores
inteiros entre 0 e 9, com 9 correspondendo à maior conservação). Abaixo de
cada bloco temos a estrutura secundária predita, sendo a letra “e” (com
fundo salmão) utilizada para indicar fitas-beta e a letra “h” (com fundo azul)
utilizada para indicar hélices-alfa. As cores de cada resíduo também indicam
a estrutura secundária, sendo vermelho indicando que o resíduo se encontra
em uma hélice-alfa e azul indicando que se encontra em uma fita-beta.
Referências do capítulo
[1] Approximate protein structural alignment in polynomial time. Rachel
Kolodny, Nathan Linial Proceedings of the National Academy of Sciences Aug
2004, 101 (33) 12201-12206; DOI: doi.org/10.1073/pnas.0404383101
[2] Antczak, M., Kasprzak, M., Lukasiak, P. et al. Structural alignment of protein
descriptors – a combinatorial model. BMC Bioinformatics 17, 383 (2016).
https://doi.org/10.1186/s12859-016-1237-9
[4] John Rozewicki, Songling Li, Karlou Mar Amada, Daron M Standley, Kazutaka
Katoh, MAFFT-DASH: integrated protein sequence and structural alignment,
Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W5–W10,
https://doi.org/10.1093/nar/gkz342
[5] Jun Hu, Zi Liu, Dong-Jun Yu, Yang Zhang, LS-align: an atom-level, flexible
ligand structural alignment algorithm for high-throughput virtual
screening, Bioinformatics, Volume 34, Issue 13, 01 July 2018, Pages 2209–
2218, https://doi.org/10.1093/bioinformatics/bty081
[9] Shatsky M., Nussinov R., Wolfson H.J. (2002) MultiProt — A Multiple Protein
Structural Alignment Algorithm. In: Guigó R., Gusfield D. (eds) Algorithms in
Bioinformatics. WABI 2002. Lecture Notes in Computer Science, vol 2452.
Springer, Berlin, Heidelberg Doi https://doi.org/10.1007/3-540-45784-4_18
[12] Wierenga RK (March 2001). “The TIM-barrel fold: a versatile framework for
efficient enzymes”. FEBS Letters. 492 (3): 193–8. doi:10.1016/s0014-
5793(01)02236-0. PMID 11257493. S2CID 42044123.
11 de julho de 2021
DOI: 10.51780/978-6-599-275326-08
A
s proteínas são as macromoléculas mais abundantes e cada
célula de um ser vivo pode conter milhares de proteínas, cada
uma com uma função única. A função de uma proteína é
definida pelo arranjo dos átomos, presentes na sequência de
aminoácidos, em sua estrutura tridimensional [1]. A relação arranjo
tridimensional e função pode, por exemplo, depender da posição dos
resíduos catalíticos no sítio ativo da proteína, ou uma possível resposta
conformacional ao interagir com outras moléculas, entre outros fatores. Com
isso, a determinação da estrutura proteica fornece uma melhor compreensão
do funcionamento da proteína, permitindo criar proposições sobre como
afetá-la, controlá-la ou modificá-la. Por exemplo, com a estrutura podemos
projetar mutações pontuais em uma região da proteína com a intenção de
alterar a função ou tentar prever moléculas que possivelmente se ligam a ela.
Modelagem comparativa
Entre as técnicas baseadas em molde, a modelagem comparativa, também
chamada anteriormente de modelagem por homologia, é a metodologia
mais utilizada para a predição da estrutura da proteína quando apenas os
dados da sequência estão disponíveis. Para que se possa adotar essa
abordagem, é necessária uma proteína-molde (ou template) com estrutura
tridimensional resolvida disponível. Esta deve apresentar uma estrutura
primária com identidade mínima, entre 25% e 30%, com a sequência da
proteína que se deseja modelar (proteína-alvo). É a partir da base estrutural
do molde que será possível propor um modelo tridimensional para a
sequência de aminoácidos da proteína-alvo [14,15].
1. Seleção da proteína-molde
MAAATTTTTTSSSISFSTKPSPSSSKSPLPISRFSLPFSLNPNKSSSSSRRRGIKSSSPS
SISAVLNTTTNVTTTPSPTKPTKPETFISRFAPDQPRKGADILVEALERQGVETVFAYPG
GASMEIHQALTRSSSIRNVLPRHEQGGVFAAEGYARSSGKPGICIATSGPGATNLVSGLA
DALLDSVPLVAITGQVPRRMIGTDAFQETPIVEVTRSITKHNYLVMDVEDIPRIIEEAFF
LATSGRPGPVLVDVPKDIQQQLAIPNWEQAMRLPGYMSRMPKPPEDSHLEQIVRLISESK
KPVLYVGGGCLNSSDELGRFVELTGIPVASTLMGLGSYPCDDELSLHMLGMHGTVYANYA
VEHSDLLLAFGVRFDDRVTGKLEAFASRAKIVHIDIDSAEIGKNKTPHVSVCGDVKLALQ
GMNKVLENRAEELKLDFGVWRNELNVQKQKFPLSFKTFGEAIPPQYAIKVLDELTDGKAI
ISTGVGQHQMWAAQFYNYKKPRQWLSSGGLGAMGFGLPAAIGASVANPDAIVVDIDGDGS
FIMNVQELATIRVENLPVKVLLLNNQHLGMVMQWEDRFYKANRAHTFLGDPAQEDEIFPN
MLLFAAACGIPAARVTKKADLREAIQTMLDTPGPYLLDVICPHQEHVLPMIPSGGTFNDV
O molde pode ser encontrado no banco de dados PDB (Protein Data Bank).
Para isso utilizaremos o servidor Web BLAST [17], escolhendo a opção Protein
BLAST, e buscaremos pela estrutura onde sua sequência tem identidade >25%,
melhor resolução cristalográfica (quanto menor melhor), melhor cobertura e
o E-value baixo (quanto mais próximo de 0, mais chances de ser significativa
a correspondência, ou seja, não aconteceu por acaso) [5,22].
1 # Importando o modeller
2
3 from modeller import *
4
5 # Importando a classe automodel
6
7 from modeller.automodel import *
8
9 # Novo ambiente para o modeller
10
11 env = environ()
12
13 # Novo ambiente para o alinhamento
14
15 aln = alignment(env)
16
17 # Modelo alvo. File= ID do PDB molde.
18
19 # Model_segment= Cadeia usada do molde
20
21 md1 = model(env, file='3e9y', model_segment=('FIRST:A','LAST:A'))
22
23 # Alinhamento.
24
25 # Align_codes= PDB do molde e cadeia.
26
27 # Atom_files= Nome do arquivo PDB do molde
28
31 # Fazer o alinhamento.
32
34
35 # Aling_codes= ID do alvo.
36
37 aln.append(file='ahas.txt', align_codes='p17597')
38
39 # Alinhamento de sequencias
40
41 aln.align2d()
42
45 aln.write(file='ahas_3e9y.ali', alignment_format='PIR')
46
49 aln.write(file='ahas_3e9y.pap', alignment_format='PAP')
$ python alinhar.py
3. Construção do modelo
Para gerar cada modelo, o MODELLER utiliza a cadeia principal da estrutura
molde e a otimiza em relação da sequência alvo, aplicando um grau de
aleatoriedade nas coordenadas. Essas coordenadas são otimizadas através
da busca pelo mínimo de energia das funções objetivo do MODELLER. Como
encontrar o mínimo global de energia através de uma função objetivo não é
garantido, recomenda-se repetir o procedimento de construção do modelo
várias vezes. Com a aleatoriedade embutida no procedimento modelos
diferentes são gerados a cada rodada, aumentando a amostragem de
conformações de modelos gerados. Considere a construção de algumas
dezenas a centenas de modelos, para então selecionar o mais adequado.
Porém, a tendência na geração de muitos modelos é que esses se
aproximem em conformação e energia.
1 # Importando o modeller
2
3 from modeller import *
4
5 # Importando a classe automodel
6
7 from modeller.automodel import *
8
9
10 # Novo ambiente para o modeller
11
12 env = environ()
13
14
15 a = automodel(
16 env,
17 alnfile='ahas_3e9y.ali',
18 knowns= '3e9yA',
19 sequence='p17597',
20 assess_methods=(
21 assess.DOPE,
22 assess.GA341
23 )
24 )
25
26 # Começar no modelo 1
27
28 a.starting_model = 1
29
30 # Terminar no modelo 5
31
32 a.ending_model = 5
33
34
35 # Construir os modelos
36
37 a.make()
visualizados por qualquer programa que leia o formato PDB, como o PyMOL. O
arquivo de log também mostra as pontuações de cada modelo.
4. Avaliação do modelo
Após a construção de modelos para a proteína-alvo é necessário verificar se
existem possíveis erros, como por exemplo erros no alinhamento ou escolha
errada do molde tridimensional usado. Vale ressaltar que modelos
construídos por métodos computacionais sempre serão passíveis de erros. A
etapa de avaliação deve conduzir a bons modelos com base na magnitude
dos erros [26].
Os resultados apresentados pelo SAVES aqui são para o modelo de ALS com o
menor valor de pontuação DOPE ( p17597.B99990004.pdb ). O gráfico do
VERIFY 3D (Figura 12) mostra que menos de 80% dos resíduos estão em
ambientes químicos confiáveis. Para essa interpretação é atribuído uma
pontuação para cada resíduo referente a base de dados de estrutura do PDB.
Como padrão do programa, para que um modelo seja aceito, ou seja, seja
confiável, mais de 80% dos resíduos devem ser aceitos.
favorável para esse resíduo. Regiões de loop são as mais difíceis de serem
modeladas e precisam de maior atenção.
Figura 15. Visualização em cartoon da proteína modelada. Em vermelho o resíduo PHE 87.
Figura 17. Gráfico de saída VERIFY 3D do novo modelo gerado após a edição do
alinhamento.
Figura 19. Alinhamento estrutural do molde e modelo construído. RMSD 0.133. Proteína-
molde em azul-claro e proteína-modelada em azul-escuro.
Threading
O threading é um método de modelagem usado para modelar estruturas que
possuem enovelamento similar a proteínas de estruturas conhecidas, porém
compartilham baixo grau de similaridade. No threading, a sequência é
fragmentada na busca por homólogos estruturais, explorando muitos
alinhamentos, ao invés do alinhamento da sequência inteira de aminoácidos
[28]. Portanto, essa metodologia é empregada quando existem modelos de
baixa identidade que cobrem regiões diferentes da sequência alvo [29].
Tutorial I-TASSER
Por fim, cinco modelos construídos mais bem ranqueados são apresentados
(Figura 32). Além da opção de download dos modelos gerados, informações,
como precisão global (C-score), TM-score e RMSD, ficam disponíveis para
melhor qualificar os modelos. Porém, o I-TASSER relata apenas a previsão de
TM-score e RMSD para o primeiro modelo, uma vez que a correlação entre C-
score e TM-score é fraca para modelos de classificação inferior.
Tutorial ROBETTA
Para utilizar o ROBETTA é necessário criar uma conta gratuita (Figura 34).
Nesse processo é criada um usuário para login e uma senha, que serão
utilizados para acessar os trabalhos que forem submetidos e acompanhar o
status na fila de execução.
deepconcnf (raptorx.uchicago.edu/StructurePropertyPred/predict/);
psipred (bioinf.cs.ucl.ac.uk/psipred/);
spider3 (sparks-lab.org/server/spider3/).
Referências bibliográficas
1. Wolynes, P.G. Evolution, Energy Landscapes and the Paradoxes of Protein
Folding. Biochimie 2015, 119, 218–230.
5. Berman, H.M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T.N.; Weissig, H.;
Shindyalov, I.N.; Bourne, P.E. The Protein Data Bank. Nucleic Acids Res. 2000, 28,
235–242.
7. Studer, G.; Tauriello, G.; Bienert, S.; Waterhouse, A.M.; Bertoni, M.; Bordoli,
L.; Schwede, T.; Lepore, R. Modeling of protein tertiary and quaternary
structures based on evolutionary information. In Computational Methods in
Protein Evolution; Springer, 2019; pp. 301–316.
9. Haddad, Y.; Adam, V.; Heger, Z. Ten Quick Tips for Homology Modeling of
High-Resolution Protein 3D Structures. PLoS computational biology 2020, 16,
e1007449.
12. Browne, W.J.; North, A.C.T.; Phillips, D.C.; Brew, K.; Vanaman, T.C.; Hill, R.L. A
Possible Three-Dimensional Structure of Bovine α-Lactalbumin Based on That
of Hen’s Egg-White Lysozyme. Journal of molecular biology 1969, 42, 65–86.
16. Baker, D.; Sali, A. Protein Structure Prediction and Structural Genomics.
Science 2001, 294, 93–96.
17. Altschul, S.F.; Gish, W.; Miller, W.; Myers, E.W.; Lipman, D.J. Basic Local
Alignment Search Tool. Journal of molecular biology 1990, 215, 403–410.
18. Schwede, T.; Kopp, J.; Guex, N.; Peitsch, M.C. SWISS-MODEL: An
Automated Protein Homology-Modeling Server. Nucleic acids research 2003,
31, 3381–3385.
20. Blundell, T.L.; Sibanda, B.L.; Sternberg, M.J.E.; Thornton, J.M. Knowledge-
Based Prediction of Protein Structures and the Design of Novel Molecules.
Nature 1987, 326, 347–352.
21. Wallner, B.; Elofsson, A. All Are Not Equal: A Benchmark of Different
Homology Modeling Programs. Protein Science 2005, 14, 1315–1327.
22. Waterhouse, A.; Bertoni, M.; Bienert, S.; Studer, G.; Tauriello, G.; Gumienny,
R.; Heer, F.T.; de Beer, T.A.P.; Rempfer, C.; Bordoli, L. SWISS-MODEL: Homology
Modelling of Protein Structures and Complexes. Nucleic acids research 2018,
46, W296–W303.
23. Wang, J.; Lee, P.K.; Dong, Y.; Pang, S.S.; Duggleby, R.G.; Li, Z.; Guddat, L.W.
Crystal Structures of Two Novel Sulfonylurea Herbicides in Complex with
Arabidopsis Thaliana Acetohydroxyacid Synthase. The FEBS journal 2009, 276,
1282–1290.
25. Higgins, D.G.; Sharp, P.M. Fast and Sensitive Multiple Sequence
Alignments on a Microcomputer. Bioinformatics 1989, 5, 151–153.
27. Schrödinger, L.L.C. The PyMOL Molecular Graphics System, Version 2.0
2020.
30. Yang, J.; Zhang, Y. I-TASSER Server: New Development for Protein
Structure and Function Predictions. Nucleic acids research 2015, 43, W174–W181.
32. Yang, J.; Roy, A.; Zhang, Y. BioLiP: A Semi-Manually Curated Database for
Biologically Relevant Ligand–Protein Interactions. Nucleic acids research 2012,
41, D1096–D1103.
34. Kim, D.E.; Chivian, D.; Baker, D. Protein Structure Prediction and Analysis
Using the Robetta Server. Nucleic acids research 2004, 32, W526–W531.
35. Song, Y.; DiMaio, F.; Wang, R.Y.-R.; Kim, D.; Miles, C.; Brunette, T.J.;
Thompson, J.; Baker, D. High-Resolution Comparative Modeling with
RosettaCM. Structure 2013, 21, 1735–1742.
36. Xu, D.; Zhang, Y. Ab Initio Protein Structure Assembly Using Continuous
Structure Fragments and Optimized Knowledge‐based Force Field. Proteins:
Structure, Function, and Bioinformatics 2012, 80, 1715–1735.
37. Bradley, P.; Chivian, D.; Meiler, J.; Misura, K.M.S.; Rohl, C.A.; Schief, W.R.;
Wedemeyer, W.J.; Schueler‐Furman, O.; Murphy, P.; Schonbrun, J. Rosetta
Predictions in CASP5: Successes, Failures, and Prospects for Complete
Automation. Proteins: Structure, Function, and Bioinformatics 2003, 53, 457–
468.
38. Chivian, D.; Kim, D.E.; Malmström, L.; Schonbrun, J.; Rohl, C.A.; Baker, D.
Prediction of CASP6 Structures Using Automated Robetta Protocols. Proteins:
Structure, Function, and Bioinformatics 2005, 61, 157–166.
2 de julho de 2021
DOI: 10.51780/978-6-599-275326-09
D
ocagem molecular é um dos métodos mais populares da
modelagem molecular. Essa técnica computacional visa buscar
“o encaixe perfeito” entre duas moléculas simulando assim o
processo de reconhecimento molecular. A partir da predição de
orientação, forma-se um complexo que pode ser usado para estimar a
afinidade de ligação ou a força de associação entre as duas moléculas, e
com isso, priorizar moléculas que “melhor” se ligam a um parceiro.
Figura 2: O processo de amostragem na docagem pode ser pensada como uma pessoa
aprendendo a colocar o carro em uma vaga de estacionamento, onde várias tentativas são
feitas até o carro ficar perfeitamente alinhado na vaga, ganhando assim uma boa
pontuação.
Referências
1. Wouters, O.J.; McKee, M.; Luyten, J. Estimated Research and Development
Investment Needed to Bring a New Medicine to Market, 2009-2018 [Published
March 3, 2020]. JAMA.
2. Wong, C.H.; Siah, K.W.; Lo, A.W. Estimation of Clinical Trial Success Rates and
Related Parameters. Biostatistics 2019, 20, 273–286,
doi:10.1093/biostatistics/kxx069.
3. Muntha, P. Drug Discovery & Development–A Review. Res. & Rev.: J. Pharm.
Pharmaceut. Sci 2016, 5, 135–142.
4. Yan, X.C.; Sanders, J.M.; Gao, Y.-D.; Tudor, M.; Haidle, A.M.; Klein, D.J.; Converso,
A.; Lesburg, C.A.; Zang, Y.; Wood, H.B. Augmenting Hit Identification by Virtual
Screening Techniques in Small Molecule Drug Discovery. Journal of chemical
information and modeling 2020, 60, 4144–4152.
5. Tripathi, A.; Bankaitis, V.A. Molecular Docking: From Lock and Key to
Combination Lock. Journal of molecular medicine and clinical applications
2017, 2.
6. Kuntz, I.D.; Blaney, J.M.; Oatley, S.J.; Langridge, R.; Ferrin, T.E. A Geometric
Approach to Macromolecule-Ligand Interactions. Journal of molecular biology
1982, 161, 269–288.
7. Pantsar, T.; Poso, A. Binding Affinity via Docking: Fact and Fiction. Molecules
2018, 23, 1899.
8. Berman, H.M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T.N.; Weissig, H.;
Shindyalov, I.N.; Bourne, P.E. The Protein Data Bank. Nucleic Acids Research
2000, 28, 235–242, doi:10.1093/nar/28.1.235.
9. Sterling, T.; Irwin, J.J. ZINC 15 – Ligand Discovery for Everyone. Journal of
Chemical Information and Modeling 2015, 55, 2324–2337,
doi:10.1021/acs.jcim.5b00559.
10. Kim, S.; Chen, J.; Cheng, T.; Gindulyte, A.; He, J.; He, S.; Li, Q.; Shoemaker, B.A.;
Thiessen, P.A.; Yu, B. PubChem 2019 Update: Improved Access to Chemical
Data. Nucleic acids research 2019, 47, D1102–D1109.
11. Sethi, A.; Joshi, K.; Sasikala, K.; Alvala, M. Molecular Docking in Modern Drug
Discovery: Principles and Recent Applications. Drug Discovery and
Development-New Advances 2019, 1–21.
12. Spyrakis, F.; Cozzini, P.; Kellogg, G.E. Docking and Scoring in Drug Discovery
Burger’s Medicinal Chemistry and Drug Discovery. 7th 2009.
14. Santos, L.H.S.; Ferreira, R.S.; Caffarena, E.R. Integrating molecular docking
and molecular dynamics simulations. In Docking screens for drug discovery;
Springer, 2019; pp. 13–34.
15. Khamis, M.A.; Gomaa, W.; Ahmed, W.F. Machine Learning in Computational
Docking. Artificial intelligence in medicine 2015, 63, 135–152.
4 de julho de 2021
DOI: 10.51780/978-6-599-275326-10
A
Bioinformática é uma área que, em geral, trabalha com uma
grande quantidade de dados, provenientes das mais diversas
fontes. A Triagem Virtual se estabelece com o objetivo de
selecionar as melhores moléculas a partir de diversas técnicas
computacionais (in silico), visto que a pesquisa in vitro e in vivo são muito
mais demoradas e dependem de mais recursos financeiros do que as
técnicas in silico. Conforme a disponibilidade de dados, o pesquisador poderá
realizar uma Triagem Virtual baseada no alvo, caso ele seja conhecido, ou
baseado em ligante, analisando dados de uma grande quantidade de
moléculas e usando técnicas de comparação entre elas, sem necessidade de
usar dados do alvo. Há também a abordagem mista, quando há a junção das
técnicas que analisam tanto o alvo quanto os possíveis ligantes. Por fim, aqui
apresentamos uma pequena lista de ferramentas que auxiliam no processo
de Triagem Virtual de ligantes.
Uma questão que vale ser destacada é que o docking, idealmente, deve ser
utilizado após uma prévia seleção das moléculas a serem envolvidas. O
docking é um procedimento que geralmente é mais demorado que a seleção
ou filtro das moléculas envolvidas. Se for utilizado em uma abordagem em
que os ligantes da molécula-alvo já sejam conhecidos, o docking pode
utilizar técnicas para seleção de moléculas com características semelhantes
ou diferentes às moléculas conhecidas (quando se pretende descobrir
moléculas com características novas). Sabe-se que moléculas similares
podem ter efeitos bioquímicos similares (MAGGIORA; SHANMUGASUNDARAM,
2011, apud [2]).
Para que a base de dados de moléculas não seja enviesada é importante que
as estruturas, pertencentes a esse conjunto, sejam obtidas de diversas fontes
e que não haja uma seleção ou filtro prévios, de forma que o espaço químico
seja o mais completo e diversificado possível. Porém, sabe-se que se ter um
espaço químico completo, de acordo com [6], é praticamente impossível, já
que o total de pequenas moléculas orgânicas que populam o “espaço
químico” tem sido estimado entre 1060 [6] e 10100 [7], números muito maiores
do que a quantidade de moléculas que já foram feitas e ainda serão. A título
de comparação, de acordo com [7], o espaço químico de moléculas que
podem ser sintetizadas é de apenas 106 e a idade do universo, estimado em
segundos, é na ordem de 1017 [8].
Uma vez que a abordagem LBVS tende a lidar com uma grande quantidade
de moléculas, é realmente interessante avaliar se as mesmas deveriam ser
agrupadas para que um estudo detalhado seja feito somente por
representantes desses grupos. Detalhes sobre agrupamentos ou fingerprints
serão abordados em publicações futuras.
264 proteínas
SwissDock (2011) RCSB PDB; Zinc JSMol disponíveis; não
detecta pockets
Não detecta
pockets;
Aprovação de
DockThor (2014) Upload; Upload JSMol
projeto para
mais de 1000
moléculas
Envio de
pequenas
moléculas
Upload e RCSB somente no
PDB; Upload, formato SMILES;
EasyVS (2019) NGLView
diversas não é possível
bibliotecas agrupar
moléculas além
dos grupos pré-
processados
DockingServer
O DockingServer (disponível em www.dockingserver.com/web) [12] é uma
ferramenta que permite o docking entre proteínas e pequenas moléculas.
SwissDock
SwissDock (disponível em http://www.swissdock.ch) [14] é um serviço web
que prediz interações moleculares que podem ocorrer entre uma proteína
alvo e uma pequena molécula, podendo ser automaticamente preparadas
para o docking. SwissDock utiliza o EADock DSS engine e, após testes, foi
possível identificar algumas limitações, descritas a seguir.
SwissDock possui apenas 264 alvos (no artigo e no site não há descrição dos
critérios utilizados para a seleção desses alvos). Essa limitação de
quantidade de alvos limita o pesquisador no estudo de ligantes para
somente os alvos disponíveis na ferramenta.
DockThor
DockThor [15] também é uma ferramenta para docking entre proteína e
ligante, desenvolvida no Brasil. O sistema faz docking usando um algoritmo
desenvolvido pelo próprio grupo e o JSMol para visualização dos resultados. O
DockThor é hospedado no supercomputador brasileiro, chamado Santos
Dumont, localizado em Petrópolis – Rio de Janeiro, disponibilizando em seu
próprio portal a utilização da ferramenta através da infraestrutura de alto
desempenho do SINAPAD (Sistema Nacional de Alto Desempenho). DockThor
está disponível em <https://www.dockthor.lncc.br>.
EasyVS
O EasyVS [10, 16] é uma ferramenta que possibilita um conjunto amplo de
funcionalidades, muitas delas já citadas nas demais ferramentas.
Por fim, cabe ressaltar que maior parte das ferramentas analisadas
estabeleciam limitações de recursos ou de funcionalidades para seus
utilizadores, podendo ser devido à grande utilização e objetivando prover o
acesso a uma maior quantidade de pesquisadores. A única ferramenta
analisada que ainda não limita recursos a seus utilizadores é o EasyVS,
porém, sabe-se que o tempo de resposta para obtenção de resultados pode
variar conforme a quantidade de requisições ao servidor e, devido a essa
questão, limitações semelhantes às demais ferramentas podem ser
estabelecidas.
Referências
[1] Domingues & Lopes, 2012 – Domingues, B. F.; Lopes, J. C. D. (2012). 3D-
Pharma: Uma Ferramenta para Triagem Virtual Baseada em Fingerprints de
Farmacoforos.
http://www.bibliotecadigital.ufmg.br/dspace/handle/1843/BUBD-9DKHDA
[2] CAVASOTTO, Claudio N. (Ed.). In silico drug discovery and design: theory,
methods, challenges, and applications. CRC Press, 2015.
[5] VERDONK, Marcel L. et al. Virtual screening using protein− ligand docking:
avoiding artificial enrichment. Journal of chemical information and computer
[6] Kirkpatrick, P. & Ellis, C. (2004). Chemical space. Nature, 432:823–823. ISSN
0028- 0836.
[7] WALTERS, W. Patrick; STAHL, Matthew T.; MURCKO, Mark A. Virtual screening-
an overview. Drug discovery today, v. 3, n. 4, p. 160-178, 1998.
[12] BIKADI, Zsolt; HAZAI, Eszter. Application of the PM6 semi-empirical method
to modeling proteins enhances docking accuracy of AutoDock. Journal of
Cheminformatics, v. 1, n. 1, p. 1-16, 2009.
[13] Morris et al., 2009 – Morris, G. M., Ruth, H., Lindstrom, W., Sanner, M. F., Belew,
R. K., Goodsell, D. S., & Olson, A. J. (2009). Software news and updates
AutoDock4 and AutoDockTools4: Automated docking with selective receptor
flexibility. Journal of Computational Chemistry, 30(16), 2785–2791.
https://doi.org/10.1002/jcc.21256
[14] Grosdidier et al., 2011 – Grosdidier, A., Zoete, V., & Michielin, O. (2011).
SwissDock, a protein-small molecule docking web service based on EADock
DSS. Nucleic Acids Research, 39(Web Server issue), W270-7.
https://doi.org/10.1093/nar/gkr366
[16] Pires, Douglas E. V., et al. “EasyVS: A User-Friendly Web-Based Tool for
Molecule Library Selection and Structure-Based Virtual Screening”.
Bioinformatics, vol. 36, n. 14, julho de 2020, p. 4200–02.
https://doi.org/10.1093/bioinformatics/btaa480.
and Tanimoto similarity: A fast and automated way to cluster small and large
data
00952338.
[18] Pires, 2015 – Pires, D. E. V., Blundell, T. L., & Ascher, D. B. (2015). pkCSM:
Predicting Small-Molecule Pharmacokinetic and Toxicity Properties Using
Graph-Based Signatures. Journal of Medicinal Chemistry, 58(9), 4066–4072.
https://doi.org/10.1021/acs.jmedchem.5b00104
2 de julho de 2021
DOI: 10.51780/978-6-599-275326-11
C
ompreender como as moléculas se comportam pode ser
essencial para desvendar seus mecanismos de atuação, o que
pode ter diversas utilidades no campo da biologia, como por
exemplo, descoberta de novos medicamentos e outros
produtos biotecnológicos. Quando falamos sobre comportamento e
mecanismo de ação de uma molécula, estamos nos referindo a sua
mobilidade espacial, a como ela se comporta em variações de temperatura
(termoestabilidade) e a como ela reage ao interagir com outras moléculas.
Em bioinformática estrutural, a técnica responsável por simular
computacionalmente o comportamento de moléculas por um período de
tempo é denominada dinâmica molecular [1].
Figura 1. Se fizéssemos uma analogia, a modelagem de estruturas poderia ser vista como
uma pintura, o docking molecular seria como uma foto e a dinâmica molecular seria um
filme. Fonte: próprio autor.
Outra analogia que poderia ser feita refere-se ao docking molecular, também
conhecido como ancoramento molecular, atracamento molecular, docagem
ou apenas docking. Essa técnica visa obter as posições conformacionais de
uma molécula quando interage com outra molécula. Um exemplo seria a
simulação das interações realizadas por uma proteína com um ligante
(pequena molécula). O docking pode ser visualizado como uma foto tirada
no exato momento em que as moléculas estão interagindo. Assim como as
dezenas de fotos que você tirou no churrasco de aniversário da sua avó (a
mesma que pediu para que você pintasse o quadro da sua tataravó), o
docking requer múltiplas tentativas e análises. Digamos que você teve que
tirar fotos até que todos ficassem bonitos na fotografia (ou pelo menos o
mais próximo disso). No caso do docking, pode-se utilizar a posição que mais
se repete ou a posição que melhor atenda ao protocolo de pontuação
utilizado (isso depende da ferramenta usada). Um ponto que devemos
destacar é que, apesar dos diferentes métodos de docagem, o resultado final
ainda será uma imagem estática. E, assim como uma foto não consegue
guardar para a eternidade os detalhes da dancinha malemolente que seu tio
fez na festa de aniversário da sua avó, o docking não consegue representar o
aspecto dinâmico das interações de uma proteína. Para analisar o
comportamento vergonhoso do seu tio precisamos de uma câmera
filmadora de alta resolução. Se tratando do comportamento de
macromoléculas não podemos filmar (ainda não temos tecnologia suficiente
para visualizar em tempo real coisas tão pequenas ou interações que
ocorrem absurdamente mais rápido do que um piscar de olhos). A solução é
utilizar computadores para simular o que irá acontecer.
Você não pode imprimir frame a frame do seu vídeo, mas há algumas
estratégias que podem ser adotadas. Como por exemplo, exibir frames mais
representativos, mostrar gráficos de RMSD, RMSF, energia de interação, raio de
giro, contatos, dentre outros. Nas próximas seções, vamos discutir algumas
dessas formas.
Gráfico de RMSD
Ao avaliar um sistema que está em movimento, você precisa de um gráfico
que represente sua mobilidade. Uma forma de fazer isso é utilizar o desvio
quadrático-médio das distâncias dos átomos (ou do inglês root-mean-
square deviation ou somente RMSD). Nesse tipo de gráfico é feita uma
comparação frame a frame da variação das distâncias. Quando o gráfico
alcança o platô, ou seja, não tiver mais tantas variações, pode-se dizer que o
sistema entrou em equilíbrio, indicando que a proteína, por exemplo, não
apresenta mais tantas modificações estruturais. A figura 4 ilustra esse tipo de
gráfico. Nela, as linhas indicam o quanto uma molécula se moveu de sua
posição inicial. Observe que, após alguns nanosegundos, as linhas se
mantêm constantes em aproximadamente 1 Å. Isso indica que o sistema está
em equilíbrio.
Figura 4. Gráfico de RMSD por tempo para quatro sistemas compostos por enzimas beta-
glicosidase das famílias GH1 e GH3 em complexo com glicose e celobiose. O eixo Y indica a
variação de distância e o eixo X o tempo. As cores indicam replicatas diferentes. Fonte:
adaptado de [3].
Outro exemplo desse tipo é o gráfico de RMSD 2D (Figura 4). Nesse exemplo,
vemos um gráfico da mobilidade de uma região composta por quatro loops
de nove proteínas homologas e mutantes de beta-glicosidases. Note como
as cores quentes indicam claramente quais as mutantes têm maior
mobilidade. No gráfico RMSD simples, vemos que cada parte da simulação é
analisada em relação ao quão distante ela está de uma única pose de
referência (na Figura 4, a pose de referência é a conformação inicial da
proteína). Por outro lado, o gráfico de RMSD 2D apresenta uma comparação
todos-contra-todos de poses da dinâmica molecular. Nesse caso, as cores
variam de azul a vermelho para indicar o quanto a pose em cada quadro no
eixo X está próxima do quadro no eixo Y. Perceba que o valor da diagonal
sempre será zero, uma vez que ela indica a distância de um frame contra ele
mesmo. Ambos os gráficos de RMSD, simples ou 2D, podem ser feitos para
uma dinâmica (Figura 4) ou comparando dinâmicas de sistemas parecidos
(Figura 5).
Figura 5 Gráfico de RMSD 2D de uma dinâmica da região de loops (denominada como LA-
D-E) de nove proteínas homólogas da família beta-glicosidase (denominadas como Bgl1A,
Bgl1B e mais sete mutantes destas proteínas). Note como as cores nos apontam uma clara
alta mobilidade nas mutantes N301Q/V302F e G246S (linhas mais avermelhadas). Fonte:
adaptado de [4].
Gráfico de RMSF
O RMSF (root-mean-square fluctuation) corresponde ao RMSD da média ao
longo do tempo. O RMSF é um modo de visualizar quais resíduos estão com
maior mobilidade espacial. Por exemplo, você pode estar estudando uma
mutação em uma determinada proteína. Após a dinâmica, você observa que
esse resíduo está bem menos móvel quando comparado com a proteína
selvagem. Isso pode implicar em ganhos ou perdas de interações da proteína
com o ambiente. A figura 6 ilustra como um gráfico de RMSF por resíduos
pode ser utilizado para destacar regiões mais móveis de uma proteína.
Observe que os resíduos que apresentam os maiores “picos” estão em
regiões de loops.
Figura 6. Gráfico de RMSF para os mais de 400 resíduos de uma proteína beta-
glicosidase. As linhas indicam a variação da mobilidade. Quanto mais alta a linha, maior a
mobilidade. Regiões específicas de loops foram grifados acima (como LA, LB, dentre
outros). Fonte: adaptado de [4].
Contatos
A visualização de contatos é mais utilizada para avaliar interações entre
proteína e ligante. O uso mais comum está na análise de estruturas estáticas,
como interações entre resíduos de partes de estruturas tridimensionais de
proteínas. Entretanto, gráficos de linha do tempo podem ser utilizados para
demonstrar a variação de contatos conforme a dinâmica ocorre. A Figura 8
apresenta um gráfico de linha do tempo para uma dinâmica molecular de
avaliação do escape do ligante do sítio ativo. Aqui vemos resíduos que
interagiram com o ligante no caminho de saída dele, além de uma estimativa
visual de quanto tempo ficaram interagindo.
Figura 8. Variação de contatos para uma série de resíduos do bolsão catalítico de uma
enzima beta-glicosidase da família GH1 com um ligante (no caso, glicose). O tamanho das
barras indica o percentual de tempo em que cada resíduo ficou interagindo com o ligante.
Raio de Giro
Bastante usado para estudo de enovelamento de peptídeos e proteínas. O
raio de giro está relacionado ao deslocamento do centro de massa da
proteína em relação a um eixo. Simplificando, quanto mais volumosa uma
proteína, maior o seu raio de giro. Nesse caso, podemos dizer que quando
uma proteína está desestruturando, o seu raio de gira aumenta.
Figura 9. Exemplo de gráfico ilustrando raio de giro por tempo de simulação. Fonte:
próprio autor.
As três dinâmicas
No geral, podemos dizer que existem três métodos de dinâmica molecular: (i)
mecânica molecular (MM, dinâmica clássica ou mecânica clássica), que se
baseia na integração das leis de movimento de Newton; (ii) mecânica
quântica (MQ), a partir das equações quânticas, como por exemplo a
equação de Schrödinger; e os (iii) métodos híbridos de MM e MQ.
Referências
1. Tousignant A, Pelletier JN. Protein Motions Promote Catalysis. Chemistry &
Biology. 2004;11:1037–42. doi:10.1016/j.chembiol.2004.06.007.
3. Costa LSC, Mariano DCB, Rocha REO, Kraml J, Silveira CH da, Liedl KR, et al.
Molecular Dynamics Gives New Insights into the Glucose Tolerance and
Inhibition Mechanisms on β-Glucosidases. Molecules. 2019;24:3215.
doi:10.3390/molecules24183215.
BI OL OGI A D E S I S T E M AS D E S T AQU ES
Vias biológicas
By Lissur Orsine
21 de junho de 2021
Vias biológicas
Lissur Orsine , Elisa Donnard
DOI: 10.51780/978-6-599-275326-12
U
ma via biológica é uma anotação de um conjunto de interações
moleculares ocorrendo dentro de um sistema biológico. Sistema
biológico pode se referir a uma célula, um tecido, um órgão ou,
até mesmo, o organismo como um todo. As vias são compostas
por entidades biológicas, que podem ser genes, enzimas, metabólitos, outras
vias; e por interações entre as entidades biológicas, que podem ser positivas,
negativas ou neutras. Por exemplo, a Figura 1 mostra a via de
proliferação/diferenciação, isto é, o mecanismo molecular pelo qual uma
célula precursora decide entre continuar em um estado indiferenciado ou se
comprometer com um tipo celular específico. Neste caso, as entidades
biológicas são representadas por elipses e as interações entre elas por setas
ou barras em T.
Vias e Redes
O conceito de via é associado a outro conceito conhecido na Biologia de
Sistemas: as redes biológicas. Uma rede biológica também é uma
representação de um conjunto de interações moleculares ocorrendo dentro
de um sistema biológico. De fato, vias e redes são abordagens
complementares dentro da Biologia de Sistemas. No entanto, elas
apresentam particularidades que as tornam mais apropriadas a um ou outro
tipo de estudo.
3. os genes de uma via podem ser coloridos de forma a sinalizar sua origem
evolutiva, o que permite identificar ramos específicos que surgiram em um
determinado ancestral ou que estão ausentes em certos organismos [7].
Bases de dados
Existem diversas bases de dados contendo vias. A mais popular delas é o
KEGG Pathway [8, 9, 10] que abriga uma coleção de vias manualmente
curadas, sendo considerada, por isso, uma base de dados de alta
confiabilidade. O Reactome [11], por sua vez, se destaca por oferecer, além de
um grande número de vias, um grande número de ferramentas de análise. Já
o WikiPathways [12] é uma base de dados colaborativa (formato wiki) onde
qualquer usuário registrado pode adicionar ou editar conteúdo.
Programas
Existem diversos programas para o desenho, a edição e a análise de vias.
Embora inicialmente concebido para o estudo de redes, atualmente o
Cytoscape [13] conta com a opção de visualizar e analisar vias advindas das
bases de dados KEGG Pathway, Reactome e WikiPathways [14, 15, 16]. Com
uma interface gráfica de fácil uso, o PathVisio [17, 18] é um programa mais
voltado para o desenho de vias, sendo o programa de escolha da base de
dados WikiPathways (tanto é possível fazer upload de vias criadas no
Formatos
Além dos tradicionais formatos de imagem (PNG, SVG, PDF), vários formatos
foram desenvolvidos para permitir a manipulação automática das vias [21].
Dentre eles, vale destacar os formatos XML-based, tais como o KEGG Markup
Language (KGML) [22], implementado na base de dados KEGG Pathway; o
Graphical Pathway Markup Language (GPML) [23], implementado na base de
dados WikiPathways; o Systems Biology Markup Language (SBML) [24, 25]; e o
Biological Pathways eXchange (BioPAX) [26]. A Figura 2 mostra um trecho do
arquivo GPML correspondente à via de sinalização Notch. É possível notar que
o arquivo GPML contém informações como o nome e a descrição da via, a
espécie a que a via se refere, a anotação das entidades biológicas, dentre
outras. Este tipo de padronização possibilita, por exemplo, encontrar em quais
vias um dado gene/produto gênico está presente ou colorir as vias segundo
um dado critério.
Figura 2. Diagrama e arquivo GPML para a via de sinalização Notch. Adaptado de [27].
Simbologia
Há diversas formas de representar uma via. A Figura 3, por exemplo, mostra
três versões da via glicolítica, via central no metabolismo de carboidratos. A
primeira delas é a representação presente em um livro de bioquímica [28]
(Figura 3), onde os substratos/produtos estão identificados por nome e
estrutura química, as enzimas por números com os respectivos nomes
exibidos à direita, e as reações por setas.
Considerações finais
As vias biológicas cumprem o importante papel de descrever, do ponto de
vista molecular, os sistemas biológicos. Dessa forma, elas ajudam a entender
como estes sistemas funcionam normalmente, e quais alterações ocorrem
em caso de doença, ou até mesmo qual é o impacto de uma droga.
Tradicionalmente, pesquisas envolvendo vias biológicas eram feitas
manualmente e se concentravam em áreas como Bioquímica ou Biologia
Molecular. O estudo das vias a partir da perspectiva da Bioinformática, em
consequência da geração acelerada de dados em larga escala com novas
técnicas moleculares, proporcionou uma melhor e mais eficiente aplicação
do conhecimento biológico consolidado em vias, além da expansão das
bases de dados existentes.
Referências bibliográficas
[1] Ruijtenberg, S., & van den Heuvel, S. (2016). Coordinating cell proliferation
and differentiation: Antagonism between cell cycle regulators and cell type-
specific gene expression. Cell cycle (Georgetown, Tex.), 15(2), 196–212.
https://doi.org/10.1080/15384101.2015.1120925
[2] Michael, G.. (2014, Jan 1st). Biochemical Pathways. Roche. Retrieved from
http://biochemical-pathways.com/
[3] Amit, I., Garber, M., Chevrier, N., Leite, A. P., Donner, Y., Eisenhaure, T.,
Guttman, M., Grenier, J. K., Li, W., Zuk, O., Schubert, L. A., Birditt, B., Shay, T., Goren,
A., Zhang, X., Smith, Z., Deering, R., McDonald, R. C., Cabili, M., Bernstein, B. E., …
Regev, A. (2009). Unbiased reconstruction of a mammalian transcriptional
network mediating pathogen responses. Science (New York, N.Y.), 326(5950),
257–263. https://doi.org/10.1126/science.1179050
[4] Collino, A., Termanini, A., Nicoli, P., Diaferia, G., Polletti, S., Recordati, C.,
Castiglioni, V., Caruso, D., Mitro, N., Natoli, G., & Ghisletti, S. (2018).
Sustained activation of detoxification pathways promotes liver carcinogenesis
in response to chronic bile acid-mediated damage. PLOS Genetics, 14(5).
https://doi.org/10.1371/journal.pgen.1007380
[5] Shah, K. B., Tripathy, S., Suganthi, H., & Rudraiah, M. (2014). Profiling of
Luteal Transcriptome during Prostaglandin F2-Alpha Treatment in Buffalo
Cows: Analysis of Signaling Pathways Associated with Luteolysis. PLoS ONE,
9(8). https://doi.org/10.1371/journal.pone.0104127
[6] Bronson, P. G., Chang, D., Bhangale, T., Seldin, M. F., Ortmann, W., Ferreira, R.
C., Urcelay, E., Pereira, L. F., Martin, J., Plebani, A., Lougaris, V., Friman, V.,
Freiberger, T., Litzman, J., Thon, V., Pan-Hammarström, Q., Hammarström, L.,
Graham, R. R., & Behrens, T. W. (2016). Common variants at PVT1, ATG13–
AMBRA1, AHI1 and CLEC16A are associated with selective IgA deficiency. Nature
Genetics, 48(11), 1425–1429. https://doi.org/10.1038/ng.3675
[7] Fani, R. (2012). The Origin and Evolution of Metabolic Pathways: Why and
How did Primordial Cells Construct Metabolic Routes? Evolution: Education and
Outreach, 5(3), 367–381. https://doi.org/10.1007/s12052-012-0439-5
[8] Kanehisa, M., Furumichi, M., Sato, Y., Ishiguro-Watanabe, M., & Tanabe, M.
(2021). KEGG: integrating viruses and cellular organisms. Nucleic acids
research, 49(D1), D545–D551. https://doi.org/10.1093/nar/gkaa970
[10] Kanehisa, M., & Goto, S. (2000). KEGG: kyoto encyclopedia of genes and
genomes. Nucleic acids research, 28(1), 27–30.
https://doi.org/10.1093/nar/28.1.27
[11] Jassal, B., Matthews, L., Viteri, G., Gong, C., Lorente, P., Fabregat, A.,
Sidiropoulos, K., Cook, J., Gillespie, M., Haw, R., Loney, F., May, B., Milacic, M.,
Rothfels, K., Sevilla, C., Shamovsky, V., Shorser, S., Varusai, T., Weiser, J., Wu, G., …
D’Eustachio, P. (2020). The reactome pathway knowledgebase. Nucleic acids
research, 48(D1), D498–D503. https://doi.org/10.1093/nar/gkz1031
[12] Martens, M., Ammar, A., Riutta, A., Waagmeester, A., Slenter, D. N., Hanspers,
K., A Miller, R., Digles, D., Lopes, E. N., Ehrhart, F., Dupuis, L. J., Winckers, L. A., Coort,
S. L., Willighagen, E. L., Evelo, C. T., Pico, A. R., & Kutmon, M. (2021). WikiPathways:
connecting communities. Nucleic acids research, 49(D1), D613–D621.
https://doi.org/10.1093/nar/gkaa1024
[13] Shannon, P., Markiel, A., Ozier, O., Baliga, N. S., Wang, J. T., Ramage, D., Amin,
N., Schwikowski, B., & Ideker, T. (2003). Cytoscape: a software environment for
[14] Nishida, K., Ono, K., Kanaya, S., & Takahashi, K. (2014). KEGGscape: a
Cytoscape app for pathway data integration. F1000Research, 3, 144.
https://doi.org/10.12688/f1000research.4524.1
[15] Wu, G., Feng, X., & Stein, L. (2010). A human functional protein interaction
network and its application to cancer data analysis. Genome biology, 11(5),
R53. https://doi.org/10.1186/gb-2010-11-5-r53
[16] Kutmon, M., Lotia, S., Evelo, C. T., & Pico, A. R. (2014). WikiPathways App for
Cytoscape: Making biological pathways amenable to network analysis and
visualization. F1000Research, 3, 152.
https://doi.org/10.12688/f1000research.4254.2
[17] Kutmon, M., van Iersel, M. P., Bohler, A., Kelder, T., Nunes, N., Pico, A. R., &
Evelo, C. T. (2015). PathVisio 3: an extendable pathway analysis toolbox. PLoS
computational biology, 11(2), e1004085.
https://doi.org/10.1371/journal.pcbi.1004085
[18] van Iersel, M. P., Kelder, T., Pico, A. R., Hanspers, K., Coort, S., Conklin, B. R., &
Evelo, C. (2008). Presenting and exploring biological pathways with PathVisio.
BMC bioinformatics, 9, 399. https://doi.org/10.1186/1471-2105-9-399
[19] Funahashi, A., Matsuoka, Y., Jouraku, A., Morohashi, M., Kikuchi, N., &
Kitano, H. (2008). CellDesigner 3.5: A Versatile Modeling Tool for Biochemical
Networks. Proceedings of the IEEE, 96(8), 1254–1265.
https://doi.org/10.1109/jproc.2008.925458
[20] Funahashi, A., Morohashi, M., Kitano, H., & Tanimura, N. (2003).
CellDesigner: a process diagram editor for gene-regulatory and biochemical
networks. BIOSILICO, 1(5), 159–162. https://doi.org/10.1016/s1478-5382(03)02370-
9
[21] Viswanathan, G. A., Seto, J., Patil, S., Nudelman, G., & Sealfon, S. C. (2008).
Getting started in biological pathway construction and analysis. PLoS
computational biology, 4(2), e16. https://doi.org/10.1371/journal.pcbi.0040016
[22] Kanehisa Laboratories. (2016, Aug 29) KGML (KEGG Markup Language).
KEGG: Kyoto Encyclopedia of Genes and Genomes. Retrieved from
https://www.kegg.jp/kegg/xml/
[23] Finterly, Riutta, A., Kumar, S., Summer-Kutmon, M., Willighagen, E., & Pico, A..
(2017, Jan 7) PathVisio/GPML. GitHub. Retrieved from
https://github.com/PathVisio/GPML
[24] Keating, S. M., Waltemath, D., König, M., Zhang, F., Dräger, A., Chaouiya, C.,
Bergmann, F. T., Finney, A., Gillespie, C. S., Helikar, T., Hoops, S., Malik-Sheriff, R. S.,
Moodie, S. L., Moraru, I. I., Myers, C. J., Naldi, A., Olivier, B. G., Sahle, S., Schaff, J. C.,
Smith, L. P., … SBML Level 3 Community members (2020). SBML Level 3: an
extensible format for the exchange and reuse of biological models. Molecular
systems biology, 16(8), e9110. https://doi.org/10.15252/msb.20199110
[25] Hucka, M., Finney, A., Sauro, H. M., Bolouri, H., Doyle, J. C., Kitano, H., Arkin, A.
P., Bornstein, B. J., Bray, D., Cornish-Bowden, A., Cuellar, A. A., Dronov, S., Gilles, E.
D., Ginkel, M., Gor, V., Goryanin, I. I., Hedley, W. J., Hodgman, T. C., Hofmeyr, J. H.,
Hunter, P. J., … SBML Forum (2003). The systems biology markup language
(SBML): a medium for representation and exchange of biochemical network
models. Bioinformatics (Oxford, England), 19(4), 524–531.
https://doi.org/10.1093/bioinformatics/btg015
[26] Demir, E., Cary, M. P., Paley, S., Fukuda, K., Lemer, C., Vastrik, I., Wu, G.,
D’Eustachio, P., Schaefer, C., Luciano, J., Schacherer, F., Martinez-Flores, I., Hu, Z.,
Jimenez-Jacinto, V., Joshi-Tope, G., Kandasamy, K., Lopez-Fuentes, A. C., Mi, H.,
Pichler, E., Rodchenkov, I., … Bader, G. D. (2010). The BioPAX community standard
for pathway data sharing. Nature biotechnology, 28(9), 935–942.
https://doi.org/10.1038/nbt.1666
[27] Hanspers, K., Kelder, T., Pico, A., Salomonis, N., Willighagen, E., Weitz, E., &
Ehrhart, F.. (2007, May 22). Notch signaling (Homo sapiens). WikiPathways.
Retrieved from https://www.wikipathways.org/index.php/Pathway:WP268
[28] Nelson, D. L., Cox, M. M.. (2004). Lehninger Principles of Biochemistry (4th
ed.). New York, NY: W. H. Freeman.ISBN 978-0716743392
[30] Le Novère, N., Hucka, M., Mi, H., Moodie, S., Schreiber, F., Sorokin, A., Demir, E.,
Wegner, K., Aladjem, M. I., Wimalaratne, S. M., Bergman, F. T., Gauges, R., Ghazal,
P., Kawaji, H., Li, L., Matsuoka, Y., Villéger, A., Boyd, S. E., Calzone, L., Courtot, M., …
Kitano, H. (2009). The Systems Biology Graphical Notation. Nature
biotechnology, 27(8), 735–741. https://doi.org/10.1038/nbt.1558
[31] Luna, A., Karac, E. I., Sunshine, M., Chang, L., Nussinov, R., Aladjem, M. I., &
Kohn, K. W. (2011). A formal MIM specification and tools for the common
exchange of MIM diagrams: an XML-Based format, an API, and a validation
method. BMC bioinformatics, 12, 167. https://doi.org/10.1186/1471-2105-12-167
[32] Kohn, K. W., Aladjem, M. I., Weinstein, J. N., & Pommier, Y. (2006). Molecular
interaction maps of bioregulatory networks: a general rubric for systems
Algoritmos Genéticos
By Rodrigo Kato
9 de abril de 2021
Algoritmos Genéticos
Rodrigo Kato , Vinícius Paiva , Sandro Izidoro
DOI: 10.51780/978-6-599-275326-13
A
lgoritmos Genéticos (AGs) são métodos meta-heurísticos
baseados na teoria de seleção natural de Charles Darwin e
foram inicialmente propostos por J. H. Holland em 1992 [1]. A
Figura 1 ilustra o funcionamento de um AG padrão. AGs são
procedimentos iterativos que evoluem uma população de indivíduos, onde
cada indivíduo representa uma solução candidata para o problema em
questão. A cada iteração, denominada geração, os melhores indivíduos são
selecionados com base em uma função de aptidão (fitness). Operadores
genéticos (cruzamento e mutação) são aplicados aos indivíduos
selecionados, visando produzir novos indivíduos a partir do material genético
de seus pais a partir de uma probabilidade para ser realizada a operação
(pm – probabilidade de mutação e pc – probabilidade de cruzamento). Esse
processo é repetido até que uma condição de parada seja satisfeita,
podendo ser um número definido de gerações, uma detecção de
convergência ou tempo de execução do AG [2; 3]. A Figura 1 apresenta um AG
padrão com seus procedimentos.
A seguir, são descritos com mais detalhes cada componente de um AG, bem
como a sua execução. Os tópicos abordados são: representação do indivíduo,
população, função de avaliação (fitness), métodos de seleção, operadores
genéticos, parâmetros, condição de parada e a abordagem paralela de AGs.
Representação do indivíduo
A representação de um indivíduo corresponde à primeira etapa da
modelagem de um algoritmo genético. Um indivíduo de um AG é uma
abstração de um indivíduo do mundo real. A definição de um indivíduo
envolve simplificar aspectos do mundo real e representa uma possível
solução para o problema em questão. A modelagem dos indivíduos deve ser
realizada de forma que eles possam ser avaliados, selecionados e
manipulados pelos operadores genéticos, e geralmente são definidos por
especialistas na área [3].
População
Um conjunto de indivíduos forma a população de um algoritmo genético.
Essa população contém possíveis soluções para o problema e pode ser
gerada de maneira aleatória ou através de sementes (seeds). Diaz-Gomez e
Métodos de seleção
A operação de seleção implica em como deverá ser feita a escolha de
indivíduos que formarão descendentes para a próxima geração [6]. O termo
pressão seletiva é muitas vezes usado para mostrar quanto um método de
seleção considera o valor de avaliação de indivíduos [7]. O objetivo da
seleção de um AG é destacar indivíduos mais aptos na população para que
possam gerar descendentes ainda melhores.
Operadores genéticos
Após a seleção de indivíduos, dois operadores genéticos (cruzamento e
mutação) são utilizados para gerar uma nova população (próxima geração
do AG). Esses operadores genéticos têm como finalidade refinar e espalhar a
busca, respectivamente, trazendo também mais variabilidade genética.
Cruzamento multiponto
O cruzamento multiponto atua de forma bem similar ao cruzamento de
ponto simples, porém, nesse caso mais de um ponto é criado. O método
seleciona dois indivíduos pais e também seleciona aleatoriamente um valor
de K, que determina os pontos P1i a Pk-1i (onde i >= 0 e i < n, sendo n o
tamanho do indivíduo) que serão os locais onde haverá o cruzamento [10]. A
Figura 3 ilustra o cruzamento multiponto com K = 2.
Cruzamento uniforme
O cruzamento uniforme (Figura 4) usa uma proporção fixa para determinar a
contribuição de cada pai, e essa contribuição ocorre no nível do gene, e não
Mutação
O operador de mutação ocorre alterando aleatoriamente algumas
características genéticas de certos indivíduos que foram selecionados por
um critério probabilístico [11]. A mutação é uma operação que utiliza apenas
o indivíduo pai para criar o indivíduo filho, aplicando algum tipo de
modificação aleatória em sua representação [3]. Diversos tipos de mutação
são descritos por Soni e Kumar (2014) [12], como: a mutação de inserção, de
inversão e uniforme.
Mutação de inserção
A mutação de inserção (Figura 5) seleciona dois genes aleatórios do
indivíduo e então move o primeiro gene para seguir o segundo, movendo
todos os outros genes de acordo. Esse tipo de mutação não modifica muito a
ordem em que os genes aparecem e é utilizada em problemas de
permutação.
Mutação de inversão
Na mutação de inversão (Figura 6), dois genes aleatórios são escolhidos e
realiza-se a inversão de todos os genes. Isso faz com que seja preservada a
informação adjacente entre os genes, porém, perde-se informação de ordem.
Também é utilizado em problemas de permutação.
Mutação uniforme
Já a mutação uniforme (Figura 7) realiza a mudança de um gene aleatório
de acordo com um valor específico em que esse gene pode assumir. Ou seja,
um gene G escolhido para sofrer a mutação pode receber um valor i, onde i
corresponde a um elemento do conjunto de valores que G pode assumir. Esse
tipo de mutação é usado em casos de representação do tipo real e inteira de
indivíduos.
Parâmetros
Os algoritmos genéticos possuem alguns parâmetros que impactam
diretamente em seu funcionamento. Apesar de haver na literatura valores
padrão recomendados, a configuração de parâmetros é particular no
contexto em que o AG está inserido [2]. Alguns dos parâmetros utilizados nos
AGs são:
Critérios de parada
Existem duas principais formas para o término da execução de um algoritmo
genético [3]. A primeira é em relação às características dos indivíduos que
compõem a solução do problema. Quando é possível identificar um padrão
ótimo em relação aos indivíduos da população, não existe mais a
necessidade de se continuar executando o AG, podendo assim encerrar sua
execução.
[15]. É esta propriedade que permite em uma mesma população, com todos
os indivíduos expostos aos mesmos operadores, o surgimento de soluções
boas diversas. Este fato, atrela o conceito de Algoritmos Genéticos ao
conceito de paralelização, indicando intuitivamente a ideia de um AG
paralelo.
Tendo isso em mente, AGs paralelos trabalham, por exemplo, com problemas
de multi-população, onde vários processos diferentes trabalham de maneira
independente com suas respectivas populações e AG. Ao final de cada
execução paralela ou até mesmo após algumas gerações, processos podem
trocar mensagens entre si, compartilhando e integrando soluções [16].
Assim, para cada aminoácido que pode fazer parte de um sítio catalítico, é
armazenado o seu nome, o nome do último átomo mais pesado na cadeia
lateral (Last Heavy Atom – LHA) e sua posição (x, y, z), a posição do
aminoácido na sequência da enzima e sua cadeia. A Figura 11 mostra um
exemplo de um indivíduo formado por 4 aminoácidos.
Uma vez feita a seleção, dois operadores genéticos são usados para gerar
uma nova população: cruzamento de um ponto e mutação de um ponto
(Figura 12). No caso da mutação de um ponto, apenas o ponto escolhido é
substituído por um resíduo aleatório, que pode ser do mesmo tipo a partir da
enzima selecionada (TRP 356 trocado pelo TRP 190 – em vermelho na Figura
8), ou por um tipo diferente de resíduo (mutação conservativa), indicado pela
matriz de substituição de resíduos da mesma enzima (GLU 361 trocado pelo
ASP 369 – em azul na Figura 12).
Parâmetros
Um AG possui um conjunto de parâmetros que influencia diretamente o seu
comportamento, e cada problema requer uma configuração particular a
partir de testes e análises de resultados preliminares. Para isso, são utilizados
valores padrões como ponto de partida até a obtenção dos valores finais
para os parâmetros. Os parâmetros do AG – GASS (Tabela 1) foram ajustados
de forma empírica.
Parâmetros Valores
Parâmetros Valores
Tamanho do Ranking 10
Tamanho do Torneio 2
Resultados
O GASS foi testado contra os 17 métodos participantes do Critical Assessment
of protein Structure Prediction (CASP 10), na categoria Function Prediction (FN)
[2]. No experimento, o GASS aparece em quarto lugar geral, com valor médio
de MCC (Matthew Correlation Coefficient) de 0,63 (Figura 13). Se comparado
apenas aos métodos automáticos, o GASS aparece em terceiro lugar.
Considerações finais
Os Algoritmos Genéticos (AGs) não são tão simples quanto parecem, e o
grande desafio está na modelagem do seu problema e no ajuste de seus
Referências
1- Katoch, S.; Chauhan, S. S. e Kumar, V. (2020). A review on genetic algorithm:
past, present, and future. Multimedia Tools and Applications.
13- Goldberg, D.; David Edward, G.; Goldberg, D. e Goldberg, V. (1989). Genetic
Algorithms in Search, Optimization, and Machine Learning. Artificial
Intelligence. Addison-Wesley Publishing Company.
19- Fauzi Mohd Johar; Farah Ayuni Azmin; Mohamad Kadim Suaidi;
Shibghatullah, A. S.; Badrul Hisham Ahmad; Siti Nadzirah Salleh; Mohamad
Zoinol Abidin Abd Aziz e Shukor, M. M. (2013). A review of genetic algorithms
and parallel genetic algorithms on graphics processing unit (gpu). In 2013 IEEE
International Conference on Control System, Computing and Engineering, pp.
264–269.
22- Jones, G.; Willett, P.; Glen, R. C.; Leach, A. R. e Taylor, R. (1997). Development
and validation of a genetical gorithm for exible docking. Journal of Molecular
Biology, 267:727-748.
29- Kato, R. B.; Silva, F. T.; Pappa, G. L. e Belchior, J. C. (2015). Genetic algorithms
coupled with quantum mechanics for refinement of force fields for RNA
simulation: a case study of glycosidic torsions in the canonical
ribonucleosides. Phys. Chem. Chem. Phys., 17:2703-2714.
30- Otovic, E.; Njirjak, M.; Zuzic, I.; Kalafatovic, D. e Mausa, G. (2020). Genetic
algorithm parametrization for informed exploration of short peptides chemical
space. In 2020 International Conference on Software, Telecommunications
and Computer Networks (SoftCOM), pp. 1–3.
C OM P U TAÇ ÃO
4 de julho de 2021
DOI: 10.51780/978-6-599-275326-14
N
os últimos anos, a Inteligência Artificial tem sido uma ferramenta
essencial em diversas áreas de estudo e também de mercado.
Suas aplicações vão desde automatização de tarefas humanas,
passando por recomendação de conteúdos até a predição de
eventos futuros. Muitas dessas aplicações têm contribuído com avanços em
pesquisas biológicas e também na medicina. Na Bioinformática, a
Inteligência Artificial vem sendo cada vez mais utilizada, principalmente no
desenvolvimento de aplicações que auxiliam e guiam experimentos diversos.
Este capítulo tem como objetivo apresentar, de forma geral, a história da
Inteligência Artificial focada no Aprendizado de Máquina (Machine Learning),
uma das áreas mais utilizadas por bioinformatas, e também apresentar
alguns dos principais tipos de aprendizado.
AS MÁQUINAS PODEM
PENSAR?
-Alan Turing
Saiba mais…
Para saber um pouco mais dessa história, ouça o Podcast do Escriba Café
que descreve toda essa evolução.
podemos estar vivendo o Verão da IA. Os autores observam que entre 2000 e
2019 os artigos publicados na área passaram de 0.8% para 3.8% de todos os
artigos revisados por pares publicados. Vale lembrar que o ano 2000 foi
pouco depois de uma máquina vencer um campeão de xadrez. Ainda, entre
2019 e 2020 houve um aumento de 34,5% no número de publicações , um
crescimento bastante significativo.
Você sabia?
Aprendizado Supervisionado
O Aprendizado Supervisionado é utilizado quando o conjunto de dados de
entrada já se encontra rotulado. Ele se subdivide em duas classes diferentes
de métodos: os de classificação e os de regressão. Os métodos de
classificação são utilizados quando os dados de entrada são categóricos e
descritivos (grupos de palavras que caracterizam um dado). Já os de
regressão, são utilizados quando os dados de entrada assumem valores
numéricos (contínuos ou discretos). Números contínuos podem assumir
qualquer valor em um intervalo infinito de valores, como por exemplo, um
valor decimal. Valores discretos assumem valores de um conjunto específico
e limitado de valores, a exemplo de um conjunto binário, que pode assumir
valores iguais a 0 ou 1.
Agrupamento
No agrupamento ou clusterização (do inglês clustering), o objetivo é
encontrar grupos com base nas características conhecidas (Figura 6). A
máquina escolhe a melhor maneira e divide automaticamente um conjunto
de dados em grupos de acordo com medidas de similaridade ou de
distância. As estruturas de agrupamento podem se associar por localização
(agrupamento de genes de acordo com sua localização nas bibliotecas), por
formato (agrupamento de formatos mecânicos em imagens 3D) ou por
densidade (agrupamento por densidade populacional).
Existem várias formas de agrupar objetos, sendo que, cada abordagem utiliza
estruturas ou modelos para descrever os dados [7]. Os algoritmos de
agrupamento mais comuns são: K-means clustering, Mean-shift e DBSCAN.
Dica:
Associação
Na técnica de associação do Aprendizado Não Supervisionado, a procura é
por padrões no fluxo de dados. O objetivo é identificar regras e correlações
de um conjunto de itens que frequentemente ocorrem juntos. Por exemplo,
pessoas que compram carne e pão podem ter interesse em comprar outros
itens para fazer hambúrguer (Figura 8).
Então, o que falta para que o seu próximo problema biológico seja resolvido
em menos tempo com uma solução mais assertiva? Se deseja imergir nesse
mundo, há muita coisa a ser explorada. Busque por conteúdos introdutórios e
comunidades na internet, com certeza isso poderá te ajudar muito no
processo de integração dessas duas áreas tão promissoras.
Referências
[1] MCCARTHY, J.; MINSKY, M. L.; ROCHESTER, N.; SHANNON, C. E.. A Proposal for
the Dartmouth Summer Research Project On Artificial Intelligence. AI
Magazine, Agosto, 1995.
[2] TURING, A. M.. Computing Machinery and Intelligence. Mind, vol. 59, n. 236,
p. 433-460, Outubro, 1950.
[5] ZHANG, Daniel et al. The AI Index 2021 Annual Report. AI Index Steering
Committee, Human-Centered AI Institute. Universidade de Stanford, Stanford,
CA. Março, 2021. Disponível em: <https://aiindex.stanford.edu/report/>. Acesso
em: 23 de Junho de 2021.
[6] KOHAVI, Ron; PROVOST, Foster . Glossary of terms. Machine Learning 30:
271–274, 1998.
C OM P U TAÇ ÃO
19 de junho de 2021
DOI: 10.51780/978-6-599-275326-15
A
o construir um classificador usando machine learning, um
desenvolvedor deve se perguntar o quão bom é seu modelo para
predição. Assim, ao treinar um modelo de aprendizagem
algumas métricas podem ser utilizadas para avaliação. A
métrica utilizada para determinação do “melhor modelo” depende do
problema analisado. Neste artigo, veremos as principais métricas para
avaliação de modelos de classificação de dados, como acurácia,
sensibilidade (recall ou revocação), especificidade, precisão e F-score
(Tabela 1).
Método Fórmula
Sensibilidade VP / (VP+FN)
Especificidade VN / (FP+VN)
Acurácia (VP+VN) / N
Precisão VP / (VP+FP)
Introdução
Um modelo de classificação de dados visa realizar uma previsão com base
em ocorrências passadas. Para isso, o modelo utiliza um conjunto de dados
com entradas (indivíduos) e atributos (propriedades). Além disso, é
necessário conhecer o resultado esperado para esse conjunto de dados
(rótulos). Todas essas informações serão usadas para treinar um modelo que
será utilizado para predizer resultados esperados para novos dados que
surgirem no futuro. Ao treinar esse modelo deve-se utilizar um conjunto de
dados (não usados no treinamento) para testar o quanto o modelo acerta.
Entretanto, não basta apenas contar a quantidade de acertos que seu
modelo teve para dizer se ele é bom ou não. Dependendo do problema
estudado, métricas diferentes devem ser utilizadas para essa avaliação.
Entretanto, antes de apresentarmos essas métricas, precisamos entender
alguns conceitos para classificação binárias: as classes que os dados
preditos poderão receber.
2. O programa disse que vai chover (positivo), mas não choveu (predição
falsa);
3. O programa disse que não vai chover (negativo) e realmente não choveu
(predição verdadeira);
4. O programa disse que não vai chover (negativo), mas choveu (predição
falsa).
Figura 1. Resultados possíveis para um programa que realiza a previsão do tempo. Fonte:
próprio autor.
Falso positivo (FP): quando o método diz que a classe é positiva, mas ao
verificar a resposta, vê-se que a classe era negativa;
Falso negativo (FN): quando o método diz que a classe é negativa, mas
ao verificar a resposta, vê-se que a classe era positiva;
Matriz de confusão
Uma maneira simples de se representar os resultados de um método de
classificação de dados é através da chamada matriz de confusão (Tabela 2).
Tabela 2. Matriz de confusão. Muitos autores costumam utilizar as siglas TP e TN (do inglês
true positive e true negative) como sinônimos para VP e VN, respectivamente. Fonte:
adaptado de Ferrari & Silva (2017) [2].
Para ilustrar isso, digamos que nosso programa de predição de chuva foi
usado durante 100 dias. Dos 100 dias, o programa disse que iria chover em 55
e que não iria chover nos outros 45 dias. Entretanto, após os 100 dias,
percebemos que choveu em 50 e não choveu nos outros 50 dias. Vamos
observar a matriz de confusão dos resultados do nosso programa (Tabela 3):
Tabela 3. Matriz de confusão que avalia o modelo de predição de chuva (n = 100). Fonte:
próprio autor.
VP = 40: o programa disse que em 40 dos 100 dias iria chover e realmente
choveu.
FP = 15: o programa disse que em 15 dos 100 dias iria chover, mas não
choveu.
FN = 10: o programa disse que em 10 dos 100 dias não iria chover, mas
choveu.
VN = 35: o programa disse que em 35 dos 100 dias não iria chover e
realmente não choveu.
Veja que a soma dos valores dos quatro campos da tabela (VP = 40, FP = 15,
FN = 10, VN = 35) deve ser igual ao total de dias (n = 100). Logo:
n = VP + VN + FP + FN
(1)
predp = VP + FP
(2)
predn = VN + FN
(3)
realp = VP + FN
(4)
realn = VN + FP
(5)
acertos = VP + VN
(6)
erros = FP + FN
(7)
Acurácia
A acurácia (accuracy ou ACC) é considerada uma das métricas mais simples
e importantes. Ela avalia simplesmente o percentual de acertos, ou seja, ela
pode ser obtida pela razão entre a quantidade de acertos e o total de
entradas:
(8)
(9)
Sensibilidade
Outra métrica que pode ser utilizada é a sensibilidade (também conhecida
como recall ou revocação). Essa métrica avalia a capacidade do método de
detectar com sucesso resultados classificados como positivos. Ela pode ser
obtida pela equação:
(10)
Especificidade
Por outro lado, a especificidade avalia a capacidade do método de detectar
resultados negativos. Podemos calculá-la usando a equação:
(11)
Precisão
A precisão é uma métrica que avalia a quantidade de verdadeiros positivos
sobre a soma de todos os valores positivos:
(12)
F-score
F–measure, F-score ou score F1 é uma média harmônica calculada com base
na precisão e na revocação. Ela pode ser obtida com base na equação:
(13)
n = 100
VP = 40
FP = 15
FN = 10
VN = 35
Vemos que nosso sistema possui uma acurácia de 0,75 (ou 75%). Vamos a
seguir analisar a precisão, sensibilidade, especificidade e F-score (F1):
Podemos ver que nosso sistema de previsão de chuva possui como métrica
mais alta a sensibilidade. Entretanto, todas as métricas avaliadas
apresentam um resultado próximo, variando de 0,7 a 0,8.
Curva ROC
A curva ROC, do inglês Receiver Operating Characteristic Curve, ou na
tradução “Curva Característica de Operação do Receptor” é um gráfico que
permite avaliar um classificador binário. Essa visualização leva em
consideração a taxa de verdadeiros positivos (TVP; ou sensibilidade) e a taxa
Figura 2. Ilustração de uma curva ROC. O eixo Y armazena a taxa de verdadeiros positivos
(sensibilidade). O eixo X armazena a taxa de falsos positivos (1 – especificidade). O ponto
azul representa um classificador perfeito, isto é, um classificador que atinge 100% de
verdadeiros positivos e 0% de falsos positivos. A linha azul claro indica um resultado
melhor do que os apresentados pelas linhas laranja e verde. A linha tracejada vermelha
indica o limiar aleatório. Resultados abaixo da linha diagonal vermelha são considerados
classificadores ruins. Fonte: adaptado e traduzido de MartinThoma (CC0 1.0 domínio
público).
Uma curva ROC pode ser avaliada pela métrica AUC (Area Under the Curve
ou “área sob a curva”). AUC calcula a área da forma bidimensional formada
abaixo da curva. Essa métrica indica a probabilidade de duas previsões
serem corretamente ranqueadas. A AUC será um valor entre 0 e 1. Quanto
maior esse valor, melhor a capacidade do modelo em separar classes [4].
Referências
[1] MARIANO, D. C. B. Uso de assinaturas estruturais para proposta de
mutações em enzimas β-glicosidase usadas na produção de
biocombustíveis. 2019.
[3] MARIANO, DIEGO; PAZ, F. J. . Data Mining. 1. ed. Porto Alegre: Sagah, 2020.
[4] Silva, Marcos. Matriz de Confusão e AUC ROC. Data Hackers – Medium.
Disponível em: https://medium.com/data-hackers/matriz-de-
confus%C3%A3o-e-auc-roc-f7e446dca107. 2019.
C OM P U TAÇ ÃO DE S T A Q UE S
23 de junho de 2021
DOI: 10.51780/978-6-599-275326-16
O
conhecimento biológico é armazenado através de bancos de
dados. O fundamento mais importante para a bioinformática
aplicada é a coleta de dados de sequência e suas informações
biológicas associadas [6]. O armazenamento de dados torna-
se necessário diante ao aumento de volume gerado nos últimos anos e da
necessidade de tratamento de informações através de buscas,
processamentos e análises de resultados. Portanto, os bancos de dados
biológicos utilizam aplicações e sistemas gerenciadores de bancos de dados
para manter acessíveis e funcionais as informações de sequências e
anotações genômicas, dados de complexos proteicos e suas interações,
mapas metabólicos, catálogo de espécies ou recursos naturais, dentre outros
exemplos.
Introdução
Embora o conceito de banco de dados esteja intrinsicamente ligado à
Ciência da Computação, boa parte das atividades do nosso dia a dia
envolvem organização e armazenamento de informações com um objetivo
específico. Neste capítulo, iremos discutir alguns conceitos gerais de banco
de dados e sua importância no contexto da bioinformática.
O que é SQL?
Comando DDL:
cidade varchar2(50)
);
Comando DML:
PIR: uma sequência no formato PIR consiste em: uma linha começando
com um sinal “>” (maior que), seguida por um código de duas letras que
descreve o tipo de sequência (P1, F1, DL, DC, RL, RC ou XX) , seguido por um
ponto e vírgula, seguido pelo código de identificação de sequência (o
código de identificação do banco de dados). Uma linha contendo uma
descrição textual da sequência. Uma ou mais linhas contendo a própria
sequência. O final da sequência é marcado com um caractere “*”
(asterisco). O formato PIR também é conhecido como formato NBRF [14].
Exemplo de Formato PIR:
>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN)
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
SDVPERSIPI TREEKPAIAG AQRK*
(A)
(B)
(C)
Referências do capítulo
[1] ELMASRI, Ramez; NAVATHE, Sham. Fundamentals of database systems.
Pearson, 2017.
[4] Zou, Dong et al. “Biological databases for human research.” Genomics,
proteomics & bioinformatics vol. 13,1 (2015): 55-63. doi:10.1016/j.gpb.2015.01.006
[6] SELZER, Paul M.; MARHÖFER, Richard J.; ROHWER, Andreas. Applied
bioinformatics. An introduction–Springer, Verlag, Berlin, Heidelberg,
Germany, v. 260, 2008.
[7] https://www.rcsb.org/
[8] https://www.wwpdb.org/documentation/file-format
[10] https://blast.ncbi.nlm.nih.gov/Blast.cgi?
CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp
[11] http://scikit-bio.org/docs/0.5.2/generated/skbio.io.format.embl.html
[12] https://www.ensembl.org/info/website/upload/gff.html
[13] Li, Heng et al. “The Sequence Alignment/Map format and SAMtools.”
Bioinformatics (Oxford, England) vol. 25,16 (2009): 2078-9.
doi:10.1093/bioinformatics/btp352
[14] http://www.bioinformatics.nl/tools/crab_pir.html
[15] https://br.ccm.net/contents/66-o-que-e-o-sistema-de-gerenciamento-
de-bancos-de-dados
C OM P U TAÇ ÃO
4 de julho de 2021
DOI: 10.51780/978-6-599-275326-17
N
este artigo, será apresentada uma breve introdução prática a
manipulação de dados biológicos usando Biopython. Para
implementação dos exemplos, iremos utilizar a plataforma
Colab do Google Research.
Introdução
Biopython é uma biblioteca Python para análise de dados biológicos [1].
Biopython possui um conjunto de classes e métodos para análises de
alinhamentos de sequências, estruturas de proteínas, consulta de bancos de
dados biológicos, genética de populações, filogenia, dentre muitas outras
funcionalidades[2]. A biblioteca pode ser baixada em https://biopython.org/.
Figura 1. Página inicial do Colab. As células ao centro são usadas para inserção do código.
Iniciando o Biopython
Para utilizar a biblioteca Biopython, deve-se inicialmente verificar se ela está
instalada. Para isso, basta importar a biblioteca com o comando:
import Bio
Caso Biopython não esteja instalado, você verá uma mensagem parecida
com esta:
---------------------------------------------------------------
<ipython-input> in <module>()
---------------------------------------------------------------
Manipulando sequências
Uma das funções básicas do Biopython é a análise de sequências. Para isso, é
necessário importar o módulo Seq com o comando:
seq1 = Seq("ACGTAGCTACGATCACAGCTA")
# Reverso complementar
rc = seq1.reverse_complement()
# Transcrição
rna = seq1.transcribe()
# Tradução
protein = seq1.translate()
# Buscar substrings
print(seq1.count('TACGA'))
# Reverter sequência
print("Reverter sequência")
print("Original:", seq1)
print("Reversa:", seq1[::-1])
Reverter sequência
Original: ACGTAGCTACGATCACAGCTA
Reversa: ATCGACACTAGCATCGATGCA
for i, n in enumerate(seq1):
print(i, n)
da sequência
10 G
0 A
11 A
1 C
12 T
2 G
13 C
3 T
14 A
4 A
15 C
5 G
16 A
6 C
17 G
7 T
18 C
8 A
19 T
20 A
seq2 = str(seq1)
print(type(seq2))
<class 'str'>
seq2 = Seq(seq2)
print(type(seq2))
<class 'Bio.Seq.Seq'>
Concatenando sequências
Podemos unir sequência usando o operador de concatenação (+):
# Concatenar
print("Unindo strings")
print(seqs)
print(type(seqs))
Unindo strings
ACGTAGCTACGATCACAGCTAACGTAGCTACGATCACAGCTA
<class 'Bio.Seq.Seq'>
print("Comparando sequências")
seq1 == seq2
Comparando sequências
True
Conteúdo GC
O conteúdo GC indica o percentual de bases nitrogenadas que são guanina
ou citosina. Em uma molécula de DNA, o par guanina-citosina realiza três
ligações de hidrogênio, em contrapartida ao par adenina-timina, que realiza
apenas duas. Logo, moléculas com maior conteúdo GC tendem a ter uma
maior estabilidade. Observe como obter o conteúdo GC usando Biopython:
print("Conteúdo GC")
print(GC(seq1))
Conteúdo GC
47.61904761904762
Manipulando arquivos
A manipulação de arquivos é uma tarefa fundamental em bioinformática.
Uma das formas mais comuns para armazenamento de sequências é o
denominado formato FASTA. Nesse formato, uma sequência única ou várias
sequências (formato Multi-FASTA) são gravadas em um arquivo de texto.
Cada sequência é indicada por um cabeçalho iniiciado pelo símbolo de
maior ( > ). Veja um exemplo:
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCG
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
No Colab, arquivos podem ser enviados por meio da aba “arquivos” no menu
lateral esquerdo:
Vamos salvar esse arquivo com o nome seq.fasta e, a seguir, analisar esse
arquivo com o Biopython. Como exemplo, vamos abrir esse arquivo FASTA,
copiar a sequência e salvar em um outro arquivo denominado seq2.fasta.
Entretanto, vamos alterar o cabeçalho, usando expressões regulares, para
que apenas o código UNIPROT da sequência seja salvo. Para isso,
precisaremos do módulo re:
# GRAVANDO ARQUIVOS
2
3 from Bio import SeqIO
5 import re
6
7 gravar = []
8
9 for i in SeqIO.parse("seq.fasta", "fasta"):
10 nome = i.id
11 descricao = i.description
12 seq = i.seq
13
14 # coletando o id do uniprot
15
16 id_uniprot = re.findall('\|.*\|', descricao)
18
19 # seqrecord
20
21 aux = SeqRecord(
22 seq,
23 id = id_uniprot,
24 description=""
25 )
26 gravar.append(aux)
27
28 # criando um novo arquivo fasta
29
30 SeqIO.write(
31 gravar,
32 "seq2.fasta",
33 "fasta"
34 )
pdb = PDBList()
pdb.retrieve_pdb_file('4MDP')
'/content/md/4mdp.cif'
2
3 parser = MMCIFParser()
5
6 print(estrutura)
7
8 # estrutura -> modelos -> cadeias -> resíduos -> átomos
9
10 for modelo in estrutura:
11 print(modelo)
13 print(cadeia)
15 nome = residuo.get_resname()
16 if nome != 'HOH':
17 print(nome, residuo.id[1])
18
19 # Detalhes dos átomos
20
21 #for atomo in residuo:
22
23 #print(atomo.id) # id
24
25 #print(atomo.coord) # coordenadas x, y, z
26
27
28
29 # distancia euclidiana entre lys 475 e leu 468 - ca
30
31 R1 = estrutura[0]['A'][475]['CA']
32 R2 = estrutura[0]['A'][476]['CA']
33
34 distancia = R1 - R2
35
36 print(distancia, 'angstrons')
<Structure id=4mdp>
ASP 470
<Model id=0>
SER 471
<Chain id=A>
LEU 472
SER 0
ILE 473
MET 1
ARG 474
SER 2
LYS 475
LEU 3
GLU 476
PRO 4
BGC 501
PRO 5
PEG 502
ASP 6
PEG 503
PHE 7
PEG 504
LYS 8
PO4 505
TRP 9
PO4 506
GLY 10
GOL 507
[...]
3.8726804 angstrons
Observe que as linhas que exibem detalhes dos átomos foram comentadas.
Isso foi feito apenas para facilitar a visualização do resultado final. Caso o
símbolo de comentário ( # ) seja removido dessas linhas, informações dos
átomos, como o código identificador do átomo e suas coordenadas, seriam
exibidas abaixo de cada resíduo.
Conclusão
Biopython permite diversos tipos de análise de dados biológicos. Aqui,
apresentou-se uma breve introdução com alguns exemplos práticos. Foi
ainda utilizado o ambiente do Colab para edição de código por meio de um
navegador. Para mais informações acesse o site oficial do Biopython:
https://biopython.org.
Material suplementar
Códigos-fonte disponíveis aqui:
https://colab.research.google.com/drive/1axvhu7yR4CLw-
7uSQX59XdwWvce_CYOs?usp=sharing
Referências
1. Cock PJA, Antao T, Chang JT, Chapman BA, Cox CJ, Dalke A, et al.
Biopython: freely available Python tools for computational molecular
biology and bioinformatics. Bioinformatics. 2009;25:1422–3.
doi:10.1093/bioinformatics/btp163. ↑
28 de maio de 2021
Sheila Tiemi Nagamatsu , Mayla Abrahim Costa , Renato Augusto Corrêa dos
Jasper Yupanqui García , Gustavo Garcia Pereira , Alice Barros Câmara , Maira
DOI: 10.51780/978-6-599-275326-18
A
Liga Brasileira de Bioinformática (LBB) é uma competição de
bioinformática que visa albergar as diferentes
multidisciplinaridades que a área compõe, sendo a primeira
competição da América Latina neste setor. As competições
colaborativas têm papel importante ao promover a comunicação
interpessoal, e o trabalho em equipe, sendo incentivada durante a LBB a
formação de equipes com diferentes formações acadêmicas. A LBB se
apresenta em três fases: 1) composta por 60 questões de múltipla-escolha
nas áreas de biologia, computação e bioinformática; 2) com cinco desafios
para resolução de problemas de biologia computacional; e 3) em que as três
equipes finalistas são selecionadas para desenvolvimento de um projeto
científico, com apresentação escrita e oral. Na 2ª Edição da LBB, serão
implementados webinar e networking com o intuito de promover o
aperfeiçoamento e o aprendizado sobre temas importantes para a
bioinformática e biologia computacional. Portanto, a LBB 2ª Edição se
apresenta como uma grande oportunidade para participantes testarem seus
conhecimentos, aprenderem, aumentarem sua rede de contatos com
pessoas interessadas na área e complementarem sua formação acadêmica.
Inscrições em https://lbb.ime.usp.br.
Introdução
A bioinformática é um campo multidisciplinar, e demanda que os
profissionais da área apresentem habilidades interdisciplinares em tópicos
como computação, biologia, estatística e matemática. Além disso, é
extremamente importante o desenvolvimento de habilidades de colaboração
e comunicação, para que esses profissionais possam aplicar esses
conhecimentos na resolução de problemas de bioinformática, como a
Organização da LBB
A LBB é um projeto autônomo da RSG-Brazil, que permite a participação de
integrantes não associados ao grupo e possui um setor administrativo
próprio. Essa autonomia permite que a LBB tenha seus próprios termos de
responsabilidade e de sigilo, bem como a não divulgação de dados
confidenciais a pessoas externas à organização da competição.
Inscrições
As inscrições são realizadas através do site oficial da LBB
(https://lbb.ime.usp.br/) mediante o preenchimento de um formulário
eletrônico no qual exige que o participante esteja de acordo com três
documentos: regulamento, termos de uso de imagem e termo de conduta. Na
LBB 2ª Edição, a inscrição de cada integrante é realizada individualmente, o
que garante uma maior confiabilidade dos dados e a leitura dos termos por
todos os integrantes da equipe. Para o preenchimento da primeira parte do
formulário é necessário: 1) nome da equipe; 2) senha de segurança; e 3)
nome completo de cada integrante. Lembrando que todos os itens devem ser
iguais para todos os integrantes da equipe. Durante a segunda fase de
preenchimento do formulário, cada participante deve escolher sua posição
na equipe (líder, integrante 2 ou integrante 3). Ressaltando que o líder deverá
apresentar um atestado de matrícula em Instituição de Ensino Superior
Brasileira e que integrantes com doutorado completo devem se cadastrar
como integrante 2. Nessa parte ocorre o cadastro dos dados pessoais do
participante: nome completo, e-mail, CPF, data de nascimento, naturalidade,
identidade de gênero, nível de escolaridade, área de graduação,
Universidade/Instituto ou local de trabalho, estado da Universidade/Instituto
LBB MATCH
A fim de suprir a necessidade de participantes que não tinham equipes, a LBB
criou alternativas para auxiliar nesta etapa, entre elas, o LBB MATCH (MATCH).
O MATCH é um software automático criado em Python, para combinar os
Com esses dados, são realizados sorteios para possibilitar a formação das
equipes levando em consideração as preferências de cada inscrito. Os
sorteios são eventos em que executamos o software para distribuição dos
inscritos em trios, sempre considerando as normas do regulamento e a
preferência dos inscritos. Durante a edição atual foram definidas quatro
datas de sorteios. Ao final de cada sorteio são enviados os perfis dos
integrantes sugeridos, e os candidatos podem aceitar ou recusar a equipe
selecionada. Caso o candidato não responda até a data indicada, ele é
recolocado no próximo sorteio. Todavia, se o participante retornar com uma
resposta negativa, o sistema evitará que ele seja recolocado com os mesmos
integrantes no sorteio subsequente. Durante os três primeiros sorteios, o
nome e e-mail dos participantes só são disponibilizados depois do aceite.
Porém, no último sorteio, devido à proximidade da data final de inscrição na
LBB 2ª Edição, os candidatos não têm a opção de avaliar o perfil dos
integrantes sorteados antes que seja liberado o contato dos mesmos.
Webinars
Com o intuito de fomentar a troca de conhecimento implementamos
webinars na LBB 2ª Edição. Eles são divididos em dois eixos: 1) webinar sobre a
LBB: contando experiências sobre como participar, como é organizada a
competição, como funciona, como são as provas e respondendo a dúvidas; e
2) webinar temáticos, onde trazemos palestrantes das diversas áreas da
bioinformática e biologia computacional para seminários. Ambos os eixos
são abertos ao público. O objetivo dos webinars é incentivar a participação
do público geral na LBB, seja ele iniciante ou avançado. O eixo temático visa
também fomentar a formação de pessoas em todos os níveis (iniciante,
médio ou avançado), dando a oportunidade de estudantes aprenderem mais
sobre a bioinformática e conhecerem pós-doutorandos, professores,
pesquisadores e profissionais que possam ser referência na área. Durante o
Eventos de networking
A fim de incentivar a formação dos participantes da LBB 2ª Edição e levar um
pouco de diversão durante a competição, foram implementados dois tipos de
eventos de networking: discussões e social.
O networking social (Figura 3) será algo mais divertido e que visa estimular a
formação de contatos. Para isso, será utilizada uma plataforma para criar um
espaço personalizado para a LBB, em que cada participante poderá escolher
seu próprio avatar durante o evento. Assim, durante o período estipulado, os
integrantes poderão passear pelo espaço LBB e conversar com as pessoas
próximas, conhecer futuros parceiros de trabalho e até fazerem algumas
amizades em um ambiente descontraído.
Primeira fase
1. pontuação total das equipes com pelo menos 50% de acerto em todas as
áreas (Biologia, Computação e Bioinformática);
2. pontuação total das equipes que não atingiram 50% de acerto em todas
as áreas.
Resposta: B
Segunda fase
A segunda fase da LBB consiste em uma série de desafios de biologia
computacional com o objetivo de avaliar a compreensão e a capacidade de
resolver problemas biológicos das equipes. Portanto, a competição não se
limita a resolver desafios de programação, mas também compreender a
pergunta biológica e os requisitos necessários para resolução. Além disto, a
principal dificuldade destes desafios nem sempre precisa estar atrelada a
complexidade algorítmica ou computacional. Um exemplo disto pode ser
observado na pergunta abaixo:
Terceira fase
A terceira fase da LBB consiste em desenvolver um projeto em bioinformática
delineado pela Comissão de Organização. O projeto se baseia em explorar
dados disponíveis em bancos públicos para um problema social, ambiental,
humano, entre outros. Durante o desenvolvimento do projeto de pesquisa são
consideradas: Pergunta Científica, Justificativa, Objetivo, Metodologia,
Resultados Preliminares e Cronograma. Do mesmo modo, o projeto proposto
é delimitado, tanto em tempo de desenvolvimento, quanto em custo. As
equipes finalistas devem escrever o projeto destacando a sua extensão
alcançada, a formação de recursos humanos, o retorno social, o impacto
ambiental, bem como, a criação/suporte de novas redes de colaboração,
infraestrutura, divulgação de resultados e entre outras.
5. Bônus.
Discussão
A LBB mostrou-se um evento de sucesso, com potencial de impactar grande
parte da comunidade de bioinformática do Brasil, em especial os
bioinformatas mais jovens, durante a graduação ou pós-graduação. Através
de incentivo pela competição para especialização na formação do
bioinformata, cooperação entre indivíduos com experiência em diferentes
áreas do conhecimento, e sistematização de conteúdos pautando um
currículo de bioinformática, a LBB contribuiu positivamente para o
fortalecimento da comunidade de bioinformática no Brasil.
Conclusão
A LBB apresenta um grande potencial para incentivar e estimular o
aprendizado em bioinformática e biologia computacional a partir de desafios
que envolvem um conhecimento multidisciplinar. Durante esta edição,
criamos novas formas para estimular o conhecimento sobre temáticas
relevantes à bioinformática através dos webinars temáticos, promovendo
conhecimento técnico com os networkings de discussão e favorecendo o
engajamento social da comunidade de estudantes de bioinformática. Além
disso, estamos sempre pensando em novas formas de criar um ambiente de
aprendizado que seja inovador e estimulante aos competidores. Além disso, a
LBB não se apresenta em 2021 apenas como uma competição, mas como um
ecossistema de imersão que vem para desafiar os participantes e ao mesmo
tempo trazer conhecimento, a fim de atender a necessidade de iniciantes a
experts em bioinformática.
Agradecimentos
Nós agradecemos à International Society for Computational Biology (ISCB)
RSG-Brazil (rsg-brazil.iscbsc.org) e Associação Brasileira de Bioinformática e
Biologia Computacional (AB3C; ab3c.org.br) e a todos os apoiadores da LBB
por colaborarem com a execução do evento. Em especial, agradecemos ao
Prof. Dr. Marcelo Brandão, Prof. Dr. Fabrício Martins Lopes, Meire Tarlá e Raquel
Riyuzo. Agradecemos também a todos os organizadores do evento que não
estão como autores: Prof. Dr. Raquel Minardi, Iracy Mayani Soares e Thales
Alves.
Referências
1. WELCH, L. et al. Bioinformatics curriculum guidelines: toward a definition of
core competencies. PLoS Comput Biol, v. 10, n. 3, p. e1003496, Mar 2014.
EN SI NO
12 de junho de 2021
DOI: 10.51780/978-6-599-275326-19
D
evido ao advento da pandemia de COVID-19, eventos
acadêmicos passaram a ocorrer em plataformas online.
Entretanto, diferente dos eventos presenciais, eventos pela
internet limitam a interação entre participantes. Aqui, é
apresentada uma estratégia de gamificação usada para ampliar o
engajamento dos participantes durante o I Workshop Online de
Bioinformática (WOB20). A estratégia, denominada “Taça das Casas”,
consistiu em agrupar os participantes, com base em suas áreas de interesse,
em quatro grupos distintos que competiram entre si. Dos 2727 inscritos no
WOB20, 200 participantes se inscreveram nessa atividade interativa. A
atividade consistia em responder uma série de perguntas referentes às
palestras ocorridas durante os três dias de eventos. O grupo vencedor
deveria acertar a maior quantidade de questões (outliers foram removidos).
Os participantes puderam interagir com outros membros do grupo por meio
de salas exclusivas de discussão. Ao fim, notou-se uma maior proporção
média de mensagens ao vivo entre participantes do evento durante a
competição. Isso pode indicar um aumento no engajamento e interação
entre participantes. Estratégias como esta podem ser utilizadas para
aumentar o interesse em eventos online, proporcionando aos participantes
mais possibilidades de interação.
Introdução
Eventos acadêmicos presenciais, como congressos, conferências e
workshops, permitem uma maior interação entre participantes. Eles fornecem
um ambiente propício para que os participantes conversem sobre pesquisas,
palestras do evento, assuntos acadêmicos e outros assuntos do mundo
cotidiano. De certa forma, esse tipo de conversa e interação entre
pesquisadores sobre o dia a dia nos laboratórios pode ter um impacto
positivo em suas carreiras [1].
A seleção
Visando aperfeiçoar as interações entre participantes do WOB20 e da
atividade extracurricular proposta, estabeleceu-se um método para divisão
dos inscritos em grupos. A estratégia de agrupamento visou: (i) Construir
quatro grupos com um número de indivíduos aproximado; (ii)
preferencialmente, agrupar indivíduos com interesses em comum; e (iii)
apresentar um baixo custo computacional para definição dos membros dos
grupos.
Assim, a “Taça das Casas” foi dividida em quatro grupos, denominados como
“casas”. Essa ideia foi inspirada na cultura pop e na fauna brasileira. Estudos
têm relatado o uso de personagens baseados em animais da fauna brasileira
em atividades de ensino [4, 5]. Dessa forma, presumiu-se que isso poderia
estimular um maior interesse por parte dos participantes. Foram definidas
quatro casas: Cobra, Onça, Jacaré e Capivara (Figura 1).
Figura 1. As quatro casas: Cobra (acima à esquerda), Onça (acima à direita), Jacaré
(abaixo à esquerda) e Capivara (abaixo à direita). Arte produzida pelo departamento de
divulgação do Comitê de Organização do Curso de Verão da UFMG e por Henrique Caixeta
Moreira.
2. Transcriptômica
2. Divulgação científica
2. Eucariotos
1 Genômica 1 1 0 0
Transcriptômica 1 1 0 0
2 Empreendedorismo 0 0 1 0
Divulgação científica 0 0 0 1
3 Procariotos 1 0 0 0
Eucariotos 0 1 0 0
A atividade
Após ser selecionado em uma das casas, cada competidor recebeu o link
para um formulário do Google Forms (https://docs.google.com/forms),
contendo 12 questões referentes a cada uma das 12 palestras do evento
(material suplementar). As questões consistiam em perguntas relacionadas a
O resultado
Ao todo 200 participantes do WOB20 se inscreveram na competição. A
grande maioria dos participantes acertou todas as perguntas e conseguiu a
pontuação máxima de 12 pontos (Figura 3). Além disso, deve-se ressaltar que
a pontuação média foi de 9,88 pontos e a nota mediana foi de 10 pontos.
Média Desvio
# Grupo Média n
interna padrão
Avaliando o engajamento
Pico de
Mensagens M/E
# Palestra especta-
no chat (pico)
dores
Tabela 3. Estatísticas das palestras do WOB20. A coluna “mensagens no chat” indica mensagens enviadas
ao vivo durante as palestras. O “pico de espectadores” indica a quantidade máxima de usuários assistindo
ao mesmo tempo. M/E (pico) corresponde à razão entre o total de mensagens no chat pelo pico de
espectadores, e é utilizada como uma métrica de comparação. Médias (M/E): 0,57 (1-5); 0,69 (6-10); e 0,96
(11-15). Dados obtidos no YouTube.
Conclusão
Eventos online permitem que diversas pessoas participem de atividades ao
mesmo tempo, mesmo estando em diversas partes do mundo. Entretanto,
eles podem ser cansativos, uma vez que há pouco espaço para interação
direta entre participantes. Portanto, estratégias para promover engajamento
são bem-vindas. Aqui apresentou-se os resultados de uma competição
realizada durante o I Workshop Online de Bioinformática da UFMG (WOB20). A
competição reuniu, em grupos, participantes com interesse em comum,
avaliando questões referentes às palestras assistidas. Notou-se um aumento
médio nas interações realizadas entre participantes durante a competição.
As estratégias aqui apresentadas podem ser adotadas em eventos online
para aumentar o engajamento dos participantes. Sugere-se ainda que esse
tipo de competição possa ser adaptado e adotado em eventos presenciais.
Material suplementar
925KB (PDF) Baixar
Referências
1. Tam V. Finding community during coffee breaks. Science. 2019;366:654–654.
doi:10.1126/science.366.6465.654.
2. Hugel M. Virtual Events Vs. In-Person Events: Why You Should Host Your Event
Online. https://info.workcast.com/blog/virtual-events-vs-in-person-events.
Accessed 22 May 2021.
DES TAQ UE S E V OL U ÇÃ O
27 de março de 2021
DOI: 10.51780/978-6-599-275326-20
Caro(a) leitor(a), esse será o primeiro de uma série de pequenos artigos com
dicas em bioinformática. A iniciativa vêm da produção de conteúdos na
minha página do Instagram, e a ideia é reunir uma coletânea de dicas
voltadas para um determinado assunto, neste primeiro texto, falarei sobre
construção de árvores filogenéticas.
Eu sigo a filosofia do “Antes feito do que perfeito”, pois é a única forma que eu
tenho de conciliar um doutorado, meus desenhos e a produção de conteúdos
para uma página, então, se você está atrás de conteúdos super explicados,
diferenças entre filogenética e filogenômica; filograma ou dendograma;
Dicas do Passo 0:
proteicos, por exemplo), pode ser que você tenha dificuldade em gerar
árvores bem suportadas.
Para resolver este pequeno problema, primeiro você deve ter um bom
conhecimento teórico da molécula que você está estudando, se as regiões
não resolvidas estiverem fora das regiões chave para as análises evolutivas,
talvez o impacto na topologia final da árvore seja pequeno, mas é sempre
bom ter noção da qualidade dos dados ao início de qualquer análise.
Então sempre é bom pensar na sua questão biológica (e eu sempre vou bater
muito nessa tecla), se você vai fazer uma filogenia de genes/proteínas
distribuídos ao longo de um grupo taxonômico, por exemplo, proteínas de
envelope dos Flavivirus, é necessário você ter a sequência da proteína de 200
linhagens do vírus da Dengue? ou é melhor você construir um banco de
proteínas com as proteínas Env de todas as “espécies” do gênero Flavivirus?
Dicas do Passo 1:
Faça uma última checagem dos seus dados: Nomes das sequências
(fasta headers) formatados; Estratégia de recuperação das sequências
bem clara; Remoção das sequências redundantes, se necessário.
Estar invertida;
Dicas do Passo 2:
Nos primórdios da bioinformática, essa edição era feita na mão, o que criava
um viés gigantesco entre os estudos, pois a forma que eu editaria um
alinhamento na mão, você não editaria da mesma forma, então foram
surgindo algumas ferramentas que automatizam algumas dessas etapas,
deixando apenas poucos detalhes para serem ajustados na mão.
Dicas do Passo 3:
Instale o CIAlign;
Faça uma última visualização com o Aliview para ver se está tudo certo
com o alinhamento;
Dicas do Passo 4:
toytree: Para quem gosta de brincar com python, possui uma limitação na
questão de cores e possibilidades de anotação quando comparada com o
iTOL, mas permite a anotação de árvores realmente gigantes (anotei
árvores de SARS-CoV-2 com mais de 7 mil genomas, sem problemas);
Dicas do Passo 5:
Escolha a ferramenta de acordo com os dados que você quer anotar (iTOL
permite anotar até piechart e barplots ao lado das filogenias);
Padronize o nome das sequências, caso você pense em mostrar eles nas
filogenias (filogenias com centenas de sequências ficam muito poluídas
com os nomes nos tips);
Por esse artigo era isso pessoal, algumas informações podem ter sido
passadas de forma muito direta, mas era essa a ideia mesmo, faça um
check-list desses passos e se aprofunde em cada um deles na hora de
realizar suas análises! E lembre-se estou longe de ser um especialista em
filogenia, pense se esses passos fazem sentido para suas análises, e sempre
busque a literatura científica na hora de tomar qualquer decisão para suas
análises!!!
Agradecimentos
Confesso que inicialmente não tinha pretensão de escrever uma seção de agradecimentos,
mas tendo em vista o tamanho que este projeto adquiriu, seria quase uma ofensa não
dedicar um espaço para agradecer a quem nos apoiou. Antes de tudo devo agradecer aos
outros 53 autores que toparam participar desta jornada: Alessandra, Alice, Ana, Anderson,
Bruno, Danilo, Danilton, Deivid, Elisa, Elvira, Felipe, Fenícia, Fernanda, Filipe, Flávia,
Gabriel, Glen, Gustavo, Helber, Heron, Izadora, Joana, Joicymara, Kaíssa, Leandro,
Letícia, Lissur, Luana, Lucas, Lucianna, Lucio, Maira, Mayla, Mônica, Nayara, Neli,
Pâmela, Paulo, Pedro, Quézia, Renato, Rodrigo, Roselane, Sandro, Sheila, Victor,
Vinicios, Vinícius, Vitor, Wandré, Wanessa, Welington e Wylerson. Sei que o tempo de
um pesquisador é bastante precioso, por isso agradeço por terem destinado parte de seu
tempo para compartilhar conhecimento.
Agradeço ainda a Filipe Dezordi, Pedro Martins, Joicymara Xavier, Thiago Sousa,
Leonardo Lima e Lucianna Santos, que atuaram na revisão dos textos. Um agradecimento
extra ao Pedro Martins por ter contribuído financeiramente para a aquisição dos servidores
que hospedam o projeto e à Joicymara Xavier pela atuação na divulgação. Agradeço ao
Sandro Batista pelo suporte na catalogação do conteúdo e ao Wylerson pela revisão final
do manuscrito. Agradeço ainda a Raquel Minardi, que não atuou diretamente nesta
primeira edição, mas cujas conversas ajudaram a estabelecer os pilares do que este projeto
se tornaria.
Caros leitores, há quase 10 anos atuando na bioinformática, tenho acumulado uma série de
anotações e manuscritos redigidos dentro e fora de sala de aula que, até então, estavam
perdidos em pastas esquecidas no meu SSD. De fato, há muito conteúdo na web sobre
bioinformática produzido em língua inglesa, mas ainda há uma lacuna a ser preenchida
quando se trata de conteúdo em língua portuguesa. Sempre tive interesse em construir um
projeto de divulgação científica na minha área de atuação, mas me faltava tempo e apoio
(inclusive financeiro). Apenas no fim de 2019, iniciei, junto a colegas da UFMG, a
construção de uma WIKI para termos relacionados à Bioinformática Estrutural. O projeto
seria mantido pela equipe do Laboratório de Bioinformática e Sistemas do Departamento
de Ciência da Computação da UFMG, mas devido ao advento da pandemia de 2019 e à
dificuldade em conciliar com outros trabalhos acadêmicos, não pudemos avançar na
proposta. Porventura, em meados de 2020 fui premiado na ISCB Wikipedia Competition
por um artigo relacionado à Bioinformática Estrutural. Com o valor do prêmio (US$500)
pude então investir na estrutura necessária para criação do sonhado projeto de divulgação
científica, que mais tarde poderia vir a se tornar uma rede de divulgação em bioinformática
(isso indiretamente levou à criação de uma editora de atuação exclusivamente digital para
cuidar do registro e indexação do conteúdo). A priori, o projeto se chamaria
“Bioinformata", mas relutei por meses em registrar o domínio. Somente no fim de 2020,
enquanto buscava um domínio para divulgação do Workshop Online em Bioinformática da
UFMG com a ajuda da Alessandra Lima, consegui registrar o domínio “bioinfo.com.br”.
Me parecia um nome ideal. Nos meses seguintes iniciei a construção da interface do
sistema web necessária para gestão de conteúdo, mas apenas no começo de 2021 o acesso
ao site foi disponibilizado ao público. Desde então, o portal BIOINFO passou a aceitar a
submissão de textos por autores externos. Além disso, após uma extensa pesquisa,
decidimos estabelecer um modelo de publicação por capítulos de livro. Pode parecer
estranho a primeira edição da “Revista Brasileira de Bioinformática” não ser publicada
exatamente como uma revista, mas sim como um livro (isso foi necessário devido a
questões burocráticas, uma vez que um ISSN só pode ser atribuído a revistas com pelo
menos duas edições publicadas para que se tenha o estabelecimento de periodicidade). Esta
primeira edição chega após quase dois anos de preparação. Apesar disso, a versão final
ainda não chegou ao nível de qualidade que eu desejava (ainda há muito a melhorar em
especial quando se trata dos processos de revisão por pares, diagramação e da indexação de
conteúdo na web). Em todo o caso, foi um prazer atuar como editor desta primeira edição.
Nas próximas edições outra pessoa atuará como editor(a). Vejo isso como um passo
necessário para que a revista ganhe diversidade de opiniões e se torne aquilo que foi
planejada para ser: o braço de divulgação de uma ampla rede de iniciação científica em
bioinformática e biologia computacional. Por fim, todo este parágrafo foi escrito para
introduzir um último agradecimento, a você leitor. Espero que este manuscrito tenha lhe
proporcionado uma boa leitura.
Diego Mariano,
31 de agosto de 2021.
Dedicado a Vera
Produzido por
Editora registrada na CBL para atribuição de Editora habilitada pelo Crossref para
ISBN. registro de DOI.
Filiada à Associação Brasileira dos Editores Editora registrada no Google Books para
Científicos. indexação de livros.