Você está na página 1de 22

ANÁLISE DE DADOS

GENÔMICOS

UNIDADE II
APLICAÇÕES DE ANÁLISES
GENÔMICAS
Elaboração
Gustavo Manoel Teixeira

Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
SUMÁRIO

UNIDADE II
APLICAÇÕES DE ANÁLISES GENÔMICAS.....................................................................................5

CAPÍTULO 1
GENOME-WIDE ASSOCIATION STUDIES – GWAS................................................................... 5
CAPÍTULO 2
MINERAÇÃO DE GENOMAS DE MICRO-ORGANISMOS....................................................... 10
REFERÊNCIAS.........................................................................................................................16
4
APLICAÇÕES DE
ANÁLISES GENÔMICAS
UNIDADE II

Capítulo 1
GENOME-WIDE ASSOCIATION STUDIES – GWAS

Estudos em massa, com genomas humanos, tornaram-se possíveis graças ao advento


da popularização do sequenciamento. Com isso, tem-se, cada vez mais, dados sobre
populações humanas a nível genético. Esta abundância de dados permitiu que
pesquisadores identificassem traços genéticos possivelmente ligados aos fenótipos
patológicos de interesse clínico. Alguns estudos relacionam a presença de SNPs (Single
Nucleotide Polymorphism, ou polimorfismo de único nucleotídeo) em certas regiões do
genoma que possam estar relacionados com o desenvolvimento de doenças importantes,
como o diabetes tipo II; além de, também, relacionar com as condições clínicas que
podem ter causas ligadas à genética, como a hipertensão, aos níveis desregulados de
colesteróis, de insuficiências respiratórias dentre outros.

As análises começam pela escolha do fenótipo a ser estudado e pela seleção da população
apropriada a ser analisada (o controle e o tratamento ou uma população aleatória sem
distinção de grupos). Em seguida, é realizada a genotipagem dos indivíduos que pode
ser através de microensaios de SNPs ou por WGS (Whole Genome Sequencing). Testes de
associação são realizados com cada SNP identificado no genoma por meio dos testes
estatísticos, como ANOVA, e da criação de modelos de regressão linear ou logística.

Em muitos casos, existe uma propriedade denominada de Linkage Disequilibrium (LD)


(figura 17), a qual define que certos SNPs estão relacionados mesmo após rearranjo
de certos lócus, o linkage ocorre quando o marcador genótipo, no caso SNPs, estão
fisicamente próximos no cromossomo, em uma população onde os indivíduos se
reproduzem de maneira aleatória, os eventos de recombinação cromossômica acabam
por separar certos marcadores que antes se encontravam próximos. Com isso, muitas
vezes, apenas um dos SNPs, associados a doença ou algum outro traço estudado, é
encontrado. A tendência é a de que, ao longo do tempo, com recombinações ao longo
das gerações, todos os SNPs associados se tornem independentes, atingindo o linkage

5
UNIDADE II | Aplicações de análises genômicas

equilibrium. Essa taxa de LD varia entre subpopulações, por exemplo, comunidades


descendentes africanos, por serem as mais ancestrais, elas possuem pequenas
regiões com LD, devido ao longo tempo que tiveram, para que ocorram diferentes
recombinações (BUSH; MOORE, 2012).

Figura 18. Ilustração representado eventos de recombinação que ocorrem com a sequência
ancestral, separando diferentes porções do cromossomo e recombinando com sequências
novas adquiridas com o tempo, alelos que permanecem próximos fazem parte do linkage
desiquilibrium que ocorre com estes cromossomos.

Cromossomo
ancestral

Cromossomos
atuais

Fonte: Ardlie, Kruglyak, Seielstad, 2002.

Existem dois tipos de análises que podem ser utilizadas para aplicar os GWAS. Se a
genotipagem de todos os indivíduos foi realizada em conjunto no mesmo projeto e com
os mesmos padrões de anotação e de sequenciamento, então, o pesquisador realiza uma
chamada mega-análise, por serem dificultosas e com valor muito elevado de execução
pesquisadores. Na maioria das vezes, eles contam com as chamadas meta-análises, as
quais contam com dados integrados de diferentes estudos disponíveis nas bibliotecas
de dados de SNPs. Isso acontece devido às dificuldades de confidencialidade de dados
e de propriedade deles. Porém ambos encontram limitações quando se deparam com a
grande heterogeneidade entre os estudos, as diferentes medidas de traços, os diferentes
desenhos experimentais, os grupos étnicos, as exposições ambientais e os parâmetros
de sequenciamento.

Apesar de apresentar uma abordagem direta para identificação de traços ligados às


doenças, estes estudos assumem que as doenças estudadas são traços Mendelianos
(apenas um gene envolvido), porém a conclusão, após de uma década de estudos, é

6
Aplicações de análises genômicas | UNIDADE II

a de que a maioria das doenças comuns são, muitas vezes, ligadas aos diversos loci.
Uma parte considerável dos SNPs encontrados em todos os GWAS se encontram em
regiões não codificantes, portanto não estão ligados à disfunção de algum gene em
específico. Estudos mais abrangentes mostraram que há interação entre regiões distantes
do genoma que podem estar ligadas com alterações na expressão de genes próximos
a região de contato.

Já se é sabido que SNPs podem influenciar a expressão de diversos genes e influenciar


diferentes vias de sinalização celular, contudo complexidade dos mecanismos de doenças
fogem dos limites da genética mendeliana. Dessa forma, estudos de associação de
genomas vem comprovando isso com o passar dos anos.

Outra problemática, que veio com o passar dos anos, foi o viés populacional que
ocorre nos estudos com populações humanas, visando a encontrar traços do genoma
ligado às doenças comuns. Até 2011, 5 anos aproximadamente após o início de os
estudos envolvendo as populações de humanos, 96% dos indivíduos sequenciados que
forneceram os dados, para os estudos, são de descendência europeia (BUSTAMANTE;
DE LA VEGA; BURCHARD, 2011); o que descartando as diferenças genéticas entre as
populações de outros continentes. Seguindo conceitos básicos de evolução, é possível
refletir o fato de que o isolamento geográfico das populações, bem como as diferentes
pressões seletivas que ocorrem nos diferentes continentes, podem influenciar a seleção
de certos genes, ou os loci ligados a certos traços fenotípicos presentes apenas em uma
população. Com isso, é compreensível que as respostas, encontradas através de GWAS,
não possam ser extrapoladas para outras populações no globo.

1.1. Estudos genômicos para suscetibilidade a doenças


humanas (diabetes tipo 2 (T2D) e Doença Arterial
Coronariana (DAC))
A diabetes tipo 2 (T2D) é caracterizada pela resistência à insulina e pela disfunção das
células beta. A falta de tratamentos e os diagnósticos eficientes fezeram com que se
buscasse um melhor entendimento da doença por meio de informações genéticas.
Diversos GWASs já são documentados, como, por exemplo, o DIAGRAM (DIAbetes
Genetics Replication and Meta-analysis) (ZEGGINI et al., 2008) e DIAGRAM + (VOIGHT et
al., 2010) os quais identificaram múltiplos lócus com SNPs correlacionados diretamente
ou indiretamente à T2D. Porém, uma problemática que vem sendo exposta destes e
outros estudos a nível genômico, para busca de marcadores associados às doenças, é o
viés populacional das amostras, a maioria de as pesquisas eram conduzidas utilizando,
exclusivamente, cidadãos de origem europeia, deixando de fora populações de outros

7
UNIDADE II | Aplicações de análises genômicas

continentes (BUSTAMANTE; DE LA VEGA; BURCHARD, 2011). Um estudo mais abrangente,


contando com populações de diferentes continentes, é importante para identificar o
aparecimento de certas doenças ao longo de tempo, bem como as tendências a certas
doenças em diferentes locais além da Europa.

Alguns trabalhos já realizam meta-análises com populações de diferentes continentes


para a identificação da ancestralidade de traços relacionados com a T2D (MAHAJAN et
al., 2014). Neste estudo, que contou com amostras de populações da Europa, leste e
sul Asiático, mexicanos e mexicanos-americanos, foi identificado que estas populações
compartilhavam de certas sequências ligadas a T2D. Isto levando os pesquisadores
a supor que esses marcadores surgiram antes de um evento de separação entre as
populações analisadas.

Figura 19. Gráfico de Manhattan indicando loci encontrados nas análises contendo um
grupo amostral maior mais abrangente, loci já identificados estão identificados em
vermelho, os identificados no atual estudo são sinalizados em verde. Os loci sinalizados em
azul foram identificados nas primeiras fases do estudo, porém não obtiveram confirmação
em estágios posteriores.

TCF7L2
Locus estabelecidos previamente Análise não condicional
Locus identificados pelo estudo atual
Locus não confirmados pelo estudo atual

HHEX/IDE
KCNQ1 (2 sinais
CDC123/CAMK1D
CDKAL1 CHCHD9 KCNJ11
CENTD2
CDKN2A/2B
SLC30A8 MTNR1B
ADAMTS9 IGF2BP2 HMGA2 ZFAND6
TP53INP1 PRC1
BCL11A PPARγ TSPAN8/LGR5
WFS1 JAZF1
THADA IRS1 ZBED3 HNF1A FTO DUSP9
KLF14 HNF1B
NOTCH2

Associação estatística sugestiva (P < 1 x 10-5) Análise condicional


Associação em região identificada ou estabelecida (P < 1 x 10-4)

Cromossomo

Fonte: Voight et al., 2010.

Doenças coronárias também possuem diversos SNPs e loci relacionados com sua
incidência (SCHUNKERT et al., 2011). Num estudo realizado com aproximadamente
100.000 voluntários de origem europeia, foram encontrados 13 novos loci associados
a suscetibilidade às doenças cardíacas. Das regiões descritas como sendo relacionadas
às doenças cardíacas, 5 mostraram forte relação com outras doenças e outros traços,
como: aneurisma cerebral, diabetes tipo 1, trombose venosa, LDL e HDL colesterol,
alterações na pressão. 3 dos novos loci foram associados com fatores de risco de DAC
com colesterol LDL e pressão sanguínea. Contudo, 17 dos 23 loci, ligados à DAC, agem
através de mecanismos independentes dos fatores de risco tradicionais. Estes resultados

8
Aplicações de análises genômicas | UNIDADE II

ilustram a necessidade de se compreender melhor os complexos mecanismos envolvidos


por trás da expressão fenotípica que leva ao desenvolvimento da doença em humanos.

1.1.1. Estudos genômicos na busca por SNPs ligados à


incidência de câncer de próstata

Os primeiros trabalhos, realizados com número considerável de amostras, para encontrar


indícios genéticos ligados ao desenvolvimento do câncer de próstata, indicaram em
comum SNPs no cromossomo 8q24. Desde lá, aproximadamente 200 loci foram
associadas ao câncer de próstata (BENAFIF; KOTE-JARAI; EELES, 2018) (figura 19).

Na maioria de os trabalhos, foram encontrados SNPs em regiões não codificantes, em


um caso, o gene MYC, perturbado em diferentes canceres. Estudos de conformação de
cromatina mostraram interações entre os SNPs encontrados no cromossomo 8q24 com
diversos genes, o que levou à hipótese de que esses SNPs podem estar ligados com a
regulação da expressão de genes como MYC. Outros estudos, ligados à conformação
de cromatina, mostraram que há interações inter e intra-cromossomais.

Figura 20. Todos os loci com SNPs associados ao câncer de próstata identificados através de
GWAS.

Fonte: Benafif; Kote-Jarai; Eeles, 2018.

9
Capítulo 2
MINERAÇÃO DE GENOMAS DE MICRO-ORGANISMOS

O rápido crescimento e o desenvolvimento das tecnologias de sequenciamento e de


análises de compostos trouxeram uma grande quantidade dados e de informações
sobre a vida na Terra. Dentre as formas de vida exploradas nesse contexto, destacam-se
os micro-organismos, com genomas menores quando comparados com outros grupos
de seres vivos, seu sequenciamento e seu estudo se tornaram mais acessível ao longo
das últimas décadas. Genomas procariotos são conhecidamente menores do que os de
eucariotos, logo, os esforços de sequenciamento são menores para obter uma grande
quantidade de dados sobre micro-organismos. Isto gerou, também, uma quantidade
de dados muito maior do que a capacidade de análise pôde acompanhar. O número
de genomas procariotos, depositados nos bancos de dados, cresce exponencialmente
ao longo dos anos. Esta grande quantidade e diversidade de dados permitiu aos
pesquisadores a realização de estudos genômicos massivos, contando com a robustez
de dados disponíveis para inferir, de maneira mais eficiente, as relações entre os fatores
genéticos e seus papéis ecológicos na natureza. Estes estudos trouxeram à tona a grande
diversidade de moléculas presentes no metabolismo secundário de certos grupos
microbianos jamais imaginada.

Após a descoberta de antibióticos, como a penicilina, feita por Alexander Fleming em


1928, acompanhada pela sua popularização para os tratamentos de infecções durante
a Segunda Guerra Mundial nos anos 1940, deu-se início a era dos antibióticos. Estas
moléculas, oriundas do metabolismo secundário destes micro-organismos, como fungos
do gênero Penicillium, trouxeram uma atenção maior ao metabolismo secundário
desses seres vivos. A possibilidade de associar diversos dados genéticos, para ajudar
na prospecção de micro-organismos de interesse biotecnológico, fez com que o ramo
de produtos naturais crescesse, o que proveu uma saída para a guerra dos antibióticos
contra micro-organismos resistentes.

O metabolismo secundário de micro-organismos é uma fonte de moléculas naturais com


diferentes atividades antagonistas que, por vezes, podem beneficiar a saúde humana,
como no caso de a penicilina. Essas moléculas naturais são fontes de antibióticos,
agentes anticâncer e imunoterapicos. Este metabolismo é responsável por uma parte
considerável da interação do micro-organismo com o ambiente em que vive e com os
outros seres vivos ali presentes. Com o aumento significativo das informações genéticas
sobre estes, verificou-se que a diversidade de moléculas que podem ser sintetizadas por
estes seres vivos é muito maior do que se imaginava. Alguns gêneros bacterianos são

10
Aplicações de análises genômicas | UNIDADE II

mais explorados na busca por novas moléculas como Streptomyces spp, pertencente
ao grupo dos Actinomicetos (GENILLOUD, 2018) (figura 20). O gênero Bacillus, de
ampla dispersão e ocorrência no planeta, é conhecido atualmente por apresentar uma
diversidade de maquinaria celular maior do que de outros gêneros presentes na natureza.
Muitos dos seus metabolitos secundários possuem atividade antimicrobianos descritas.
Esses metabólitos são produzidos de maneira natural no ambiente, como resposta a
interação com outros micro-organismos competidores que disputam o mesmo nicho
que as bactérias do gênero Bacillus.

Algumas classes de moléculas, produzidas pelos Bacillus, são amplamente estudadas


e caracterizadas como tendo elevado potencial antimicrobiano; como é caso dos
Lipopeptídeos (LP). Estas moléculas são a especialidade destas bactérias que produzem
diversas famílias diferentes de LPL, como, fengicinas, surfactinas, iturinas (PENHA et
al., 2020). Esta propriedade faz com que o gênero Bacillus seja altamente explorado
como agente de biocontrole para o controle de pragas em plantações. Diversos são
os estudos que descrevem a atividade antifúngica de espécies de Bacillus contra os
diversos fungos de interesse agrícola que causam perdas substanciais nas produções
de grãos e hortifrutis (Sclerotinia sclerotiorum, Botrytis cinerea, Fusarium oxysporum,
F. solani e Rhizoctonia solani).

Bactérias do gênero Bacillus, também, são responsáveis por indução de sistemas de


defensa em plantas contra invasões de patógenos, por Indução de Resistência Sistêmica
(IRS); a além de possuírem atividade nematicida e promoverem o crescimento de
plantas. A interação de plantas, com micro-organismos, é de extrema importância para
a sobrevivência dos dois. A comunicação que ocorre entre os dois é majoritariamente
regulada pela síntese de metabólitos secundários produzidos pelos dois. Com o avanço
nos estudos e a quantidade de dados metabólicos de plantas e de micro-organismos,
esta relação simbiótica entre os dois se tornou, cada vez mais, clara e importante.
Assim, o conhecimento mais aprofundado dessa íntima relação pode ajudar o homem a
desenvolver métodos mais eficientes de tratamento de doenças em plantas de interesse
agrícola e medicinal.

Estudos de metagenômica são de extrema importância para a caracterização da


diversidade de micro-organismos em um dado ambiente amostrado (solos e trato
intestinal). Tecnologias modernas permitem o sequenciamento de genomas completos
por meio de amostras brutas, sem a necessidade de amplificação de material genético
por PCR.

11
UNIDADE II | Aplicações de análises genômicas

Figura 21. Diferentes funções de moléculas encontradas em fungos do grupo dos


Actinomicetos.

Inibição de patógenos
Imunidade de formigas fúngicos
Fungos de jardim
Cortadeiras (biomassa foliar, L.
gongylophorus

Dentigerumicina
Vanilomicina

Patógeno Patógeno fúngico


(Fungos e ácaros) (Escovopis spp.

Actinomicetos
(Streptomyces spp.,
Pseudonocardia spp.)

Defesa de nicho Ciclo do carbono

Actinomicetos competidores 17%

9-metoxirebeccamicina

Solo

Fonte: Behie et al., 2017.

Outra vantagem, trazida pela disponibilidade de uma quantidade massiva de dados,


é o estudo da ecologia dos micro-organismos de diferentes ambientes por meio de
informações genéticas, o que possibilita uma associação do seu conteúdo genético com
a qual o fenótipo tenha uma possível função ecológica no ambiente onde se encontra.
No que diz respeito ao metabolismo secundário, já se sabe que os micro-organismos
possuem uma diversa maquinaria capaz de sintetizar dezenas de compostos diferentes,
com os quais possuirão alguma função na interação entre os diferentes seres vivos, os
quais entram em contato na natureza (fungos, bactérias, archeas, vírus, nematoides,
plantas dentre outros). Com bactérias actinomicetos, comuns no ambiente natural,
diversos metabolitos secundários já possuem uma provável função designada, como
antagonismo contra fungos que causam doenças em formigas, insetos com os qua o
fungo possui interação simbiótica mutualística.

Algumas ferramentas on-line são capazes de encontrar BGCs (Biosynthetic Gene Clusters
– Clusters de genes biossintéticos). BGCs são um conjunto de genes relacionados, de
maneira direta ou indireta, com a síntese de certa classe de metabólito. Inclui-se, nos
clusters, genes cerne que são responsáveis pela síntese do metabólito em si, genes de

12
Aplicações de análises genômicas | UNIDADE II

transportes de íons e de moléculas necessárias para síntese, genes de regulação da


síntese do metabólito que controla quando a célula produz ou não a molécula.

Um webserver, amplamente utilizado para executar essa tarefa, é o antiSMASH (BLIN


et al., 2019) (figura 21), atualmente na sua quinta versão. No webserver, é possível
indicar um número de acesso de alguma cepa depositada em um dos bancos de dados
com o qual o antiSMASH tem acesso. Outra alternativa é fazer o upload da sequência
do genoma na forma de draft (rascunho, apenas contigs) ou scaffold até o genoma
completo no formato fasta. Alguns parâmetros podem ser ajustados antes de rodar a
análise, pois, neles, é possível definir a rigidez com a qual o programa busca por BGCs;
o que pode mostrar fragmentos de clusters encontrados no genoma (produtos de THG
– Transferência Horizontal de Genes), ou apenas clusters completos com similaridade à
algum depositado no banco de dados de clusters (MiBiG – Minimum Informatio about
Biosynthetic Genes).

Figura 22. Página inicial do webserver antiSMASH, onde é possível encontrar BGCs em
genomas de bactérias a partir de seu número de acesso no GenBank ou por meio de a sua
sequência enviada em formato fasta.

Fonte: https://antismash.secondarymetabolites.org/#!/start.

Dessa forma, nele, é possível definir alguns parâmetros de pesquisa, como o rigor da
detecção:

» rigoroso, onde apenas clusters contendo todas as suas partes bem definidas, são
detectados;

» relaxado, são encontrados clusters completos e alguns com poucas partes ausentes;

13
UNIDADE II | Aplicações de análises genômicas

» solto, neste rigor de pesquisa, são encontrados quaisquer sinais de fragmentos de


clusters no genoma. Este modo, porém, é suscetível a encontrar falsos positivos e,
por vezes, clusters ligados ao metabolismo primário.

Outras funções, também, podem ser ativadas para a busca: o KnowClusterBlast, onde os
clusters identificados são comparados com as BGCs do banco de dados MIBiG; o similar
ClusterBlast que busca por similaridades entre os clusters já detectados pelo programa;
o Cluster Pfam analysis, que é opção ativa que busca os clusters na base de dados de
famílias de proteínas; e o ActiveSiteFinder, que busca por sites ativos em certos grupos
de metabólitos secundários para predição de especificidade de substratos.

Os resultados são enviados ao e-mail, deixado antes da submissão do trabalho na página


de resultados, as BGCs encontradas são organizadas em uma tabela, nas linhas estão cada
uma das BGCs, a frente é apresentada a posição deste cluster na sequência analisada,
seguida do tipo do cluster (NRPS – Non-ribossomal Peptide Synthetase, PKS – Polyketide
Synthase, Terpenos, bacteriocinas) e da similaridade com algum cluster encontrado no MIBiG.
Ao clicar no cluster encontrado, é possível analisá-lo com mais detalhes, observar todos os
genes encontrados dentro do cluster e sua possível função, também, é possível identificar
o gene cerne responsável pela síntese do metabólito em questão, bem como os genes de
transporte e de regulação (BLIN et al., 2017, 2019a, 2019b, 2021; MEDEMA et al., 2011).

Outra ferramenta, usada para análises de dados genômicos, sendo a nível de contigs
de um isolado sequenciado até amostras metagenômicas ambientais, é o NaPDoS
(Natural Product Domain Seeker – Buscador de Domínios de Produtos Naturais)
(figura 22). Esta ferramenta permite buscar por genes de duas grandes famílias de
enzimas presentes em micro-organismos, as NRPS e PKS. A arquitetura molecular
dessa família de enzimas se resume basicamente em três domínios: ativação (AT ou
A), tiolação (ACP ou PCP) e condensação (KS ou C). Uma problemática aparente nos
estudos de metabólitos secundários está na alta complexidade e na repetibilidade
das sequências dos genes envolvidos na síntese desses metabólitos, o que faz com
que a sua montagem, utilizando as plataformas de sequenciamento de próxima
geração (NGS – Next Generations Sequencing) com leituras pequenas, seja dificultada.
Uma vez ultrapassado esse problema, o NaPDoS utiliza classificação baseada em
filogenia para distinguir os domínios KS ou C, esses foram selecionados devido
a uma grande conservação das sequências e por serem os mais informativos num
contexto filogenético (ZIEMERT et al., 2012).

14
Aplicações de análises genômicas | UNIDADE II

Figura 23. Página de busca do webserver NaPDoS.

Fonte: https://npdomainseeker.sdsc.edu/run_analysis.html.

Para mais informações sobre a mineração de genomas e de metagenomas na


busca por informações sobre síntese de metabólitos secundários, recomenda-se
a leitura dos seguintes artigos: The evolution of genome mining in microbes – a
review (ZIEMERT; ALANJARY; WEBER, 2016); Silico methods for linking genes and
secondary metabolites: The way forward (KHATER; ANAND; MOHANTY, 2016); e
Computational approaches to natural product discovery (MEDEMA; FISCHBACH,
2015).

15
REFERÊNCIAS

AGREN, J. et al. Gegenees: fragmented alignment of multiple genomes for determining phylogenomic
distances and genetic signatures unique for specified target groups. PLoS ONE, v. 7, n. 6, p. e39107, 2012.
Disponível em: https://dx.plos.org/10.1371/journal.pone.0039107. Acesso em: 17 set. 2019.

AHERFI, S. et al. A large open pangenome and a small core genome for giant pandoraviruses. [S. l.], 2018.

ALIKHAN, N.F. F.; PETTY, N. K.; BEN ZAKOUR, N. L.; BEATSON, S. A. Blast ring image generator (BRIG):
simple prokaryote genome comparisons. BMC Genomics, [S. l.], v. 12, p. 402, 2011. Disponível em: http://
www.ncbi.nlm.nih.gov/pubmed/21824423. Acesso em: 4 dez. 2018.

ANDREWS, S. FastQC: a quality control tool for high throughput sequence data. [S. l.], 2010.

ARDLIE, K. G.; KRUGLYAK, L.; SEIELSTAD, M. Patterns of linkage disequilibrium in the human genome.
Nature Reviews Genetics, [S. l.], v. 3, n. 4, pp. 299-309, 2002. Disponível em: https://doi.org/10.1038/
nrg777. Acesso em: 23 jun. 2021.

BEHIE, S. W.; BONET, B.; ZACHARIA, V. M.; MCCLUNG, D. J.; TRAXLER, M. F. Molecules to ecosystems:
actinomycete natural products in situ. Frontiers in microbiology. Frontiers Media S.A., 2017. Disponível
em: www.frontiersin.org. Acesso em: 20 jan. 2021.

BENAFIF, S.; KOTE-JARAI, Z.; EELES, R. A. A review of prostate cancer genome-wide association studies
(GWAS). Cancer Epidemiology Biomarkers &amp;amp; Prevention, [S. l.], v. 27, n. 8, pp. 845LP–857,
2018. Disponível em: http://cebp.aacrjournals.org/content/27/8/845.abstract.

BLIN, K.; SHAW, S.; STEINKE, K.; VILLEBRO, R.; ZIEMERT, N.; LEE, S. Y.; MEDEMA, M. H.; WEBER, T. antiSMASH
5.0: updates to the secondary metabolite genome mining pipeline. Nucleic Acids Research, [S. l.], v. 47,
n. W1, pp. W81–W87, 2019. Disponível em: https://academic.oup.com/nar/article/47/W1/W81/5481154.
Acesso em: 23 jun. 2021.

BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: a flexible trimmer for Illumina sequence data.
Bioinformatics, [S. l.], v. 30, n. 15, pp. 2114–2120, 2014. Disponível em: https://academic.oup.com/
bioinformatics/article-lookup/doi/10.1093/bioinformatics/btu170. Acesso em: 7 dez. 2019.

BRONNER, I. F.; QUAIL, M. A.; TURNER, D. J.; SWERDLOW, H. Improved protocols for illumina sequencing.
Current Protocols in Human Genetics, [S. l.], v. 79, n. 1, pp. 1821-18242, 2013. Disponível em: https://
onlinelibrary.wiley.com/doi/10.1002/0471142905.hg1802s79. Acesso em: 25 jan. 2021.

BUSH, W. S.; MOORE, J. H. Chapter 11: genome-wide association studies. PLoS Computational Biology,
[S. l.], v. 8, n. 12, p. e1002822, 2012. Disponível em: www.genome.gov/gwastudies. Acesso em: 14 jan. 2021.

BUSTAMANTE, C. D.; DE LA VEGA, F. M.; BURCHARD, E. G. Genomics for the world. Nature, [S. l.], v. 475,
n. 7355, pp. 163–165, 2011. Disponível em: https://doi.org/10.1038/475163a. Acesso em: 23 jun. 2021.

CLARK, A. G. et al. Evolution of genes and genomes on the Drosophila phylogeny. Nature, [S. l.], v. 450,
n. 7167, pp. 203–218, 2007. Disponível em: www.flybase.org. Acesso em: 11 fev. 2021.

16
Referências

CORDAUX, R; BATZER, M. A. The impact of retrotransposons on human genome evolution. Nature


Reviews Genetics. Nature Publishing Group, 2009. Disponível em: www.nature.com/reviews/genetics.
Acesso em: 12 fev. 2021.

DARLING, A. C. E.; MAU, B.; BLATTNER, F. R.; PERNA, N. T. Mauve: multiple alignment of conserved genomic
sequence with rearrangements. Genome research, [S. l.], v. 14, n. 7, pp. 1394–1403, 2004. Disponível em:
/pmc/articles/PMC442156/. Acesso em: 8 fev. 2021.

DUNN, W. B.; ELLIS, D. I. Metabolomics: current analytical platforms and methodologies. TrAC - Trends
in Analytical Chemistry, [S. l.], v. 24, n. 4, pp. 285-294, 2005.

FU, Y.; LIU, S.; YIN, S.; NIU, W.; XIONG, W.; TAN, M.; LI, G.; ZHOU, M. The reverse warburg effect is likely
to be an Achilles’ heel of cancer that can be exploited for cancer therapy. Oncotarget, v. 8, n. 34, 2017a.
Disponível em: https://www.oncotarget.com/article/18175/text/. Acesso em: 23 jun. 2021.

FU, Y.; LIU, S.; YIN, S.; NIU, W.; XIONG, W.; TAN, M.; LI, G.; ZHOU, M. The reverse Warburg effect is likely
to be an Achilles’ heel of cancer that can be exploited for cancer therapy. Oncotarget, v. 8, n. 34,
2017b.

GALARDINI, M.; BIONDI, E. G.; BAZZICALUPO, M.; MENGONI, A. CONTIGuator: a bacterial genomes
finishing tool for structural insights on draft genomes. Source code for biology and medicine, [S. l.],
v. 6, p. 11, 2011. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/21693004. Acesso em: 24 out.
2018.

GENILLOUD, O. Mining actinomycetes for novel antibiotics in the omics era: are we ready to exploit this
new paradigm? Antibiotics, Switzerland, v. 7, n. 4, p. 85, 2018. Disponível em: http://www.mdpi.com/2079-
6382/7/4/85. Acesso em: 23 jun. 2021.

GUREVICH, A.; SAVELIEV, V.; VYAHHI, N.; TESLER, G. QUAST: quality assessment tool for genome assemblies.
Bioinformatics, [S. l.], v. 29, n. 8, pp. 1072-1075, 2013. Disponível em: https://academic.oup.com/
bioinformatics/article-lookup/doi/10.1093/bioinformatics/btt086. Acesso em: 12 mar. 2020.

HEATHER, J. M.; CHAIN, B. The sequence of sequencers: the history of sequencing DNA. Genomics, [S. l.],
v. 107, n. 1, pp. 1-8, 2016. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/26554401. Acesso em:
28 nov. 2018.

HUHMAN, D. V.; SUMNER, L. W. Metabolic profiling of saponins in medicago sativa and medicago
truncatula using HPLC coupled to an electrospray ion-trap mass spectrometer. Phytochemistry, [S. l.],
v. 59, n. 3, pp. 347–360, 2002.

HUYNEN, M. A.; BORK, P. Measuring genome evolution. Proceedings of the national academy of
sciences of the united states of america, [S. l.], v. 95, n. 11, pp. 5849-5856, 1998. Disponível em: www.
pnas.org. Acesso em: 12 fev. 2021.

KHATER, S.; ANAND, S.; MOHANTY, D. In silico methods for linking genes and secondary
metabolites: The way forward. Synthetic and Systems Biotechnology, [S. l.], v. 1,

17
Referências

n. 2, pp. 80-88, 2016. Disponível em: https://www.sciencedirect.com/science/article/pii/


S2405805X1530020X. Acesso em: 26 nov. 2018.

KREMER, F. S.; MCBRIDE, A. J. A.; PINTO, L. S. Approaches for in silico finishing of microbial genome
sequences. Genetics and Molecular Biology, [S. l.], v. 40, n. 3, pp. 553-576, 2017. Disponível em: http://
www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-47572017000400553&lng=en&tlng=en. Acesso
em: 10 dez. 2019.

LEI, Z.; HUHMAN, D. V.; SUMNER, L. W. Mass spectrometry strategies in metabolomics. Journal of
Biological Chemistry, [S. l.], v. 286, n. 29, pp. 25435–25442, 2011. Disponível em: http://www.jbc.org/.
Acesso em: 12 jan. 2021.

LIU, Y.; GONZÀLEZ-PORTA, M.; SANTOS, S.; BRAZMA, A.; MARIONI, J. C.; AEBERSOLD, R.; VENKITARAMAN,
A. R.; WICKRAMASINGHE, V. O. Impact of alternative splicing on the human proteome. Cell Reports, [S.
l.], v. 20, n. 5, pp. 1229–1241, 2017.

MAHAJAN, A. et al. Genome-wide trans-ancestry meta-analysis provides insight into the genetic
architecture of type 2 diabetes susceptibility. Nature Genetics, [S. l.], v. 46, n. 3, pp. 234–244, 2014.
Disponível em: https://www.nature.com/articles/ng.2897. Acesso em: 14 jan. 2021.

MAXAM, A. M.; GILBERT, W. A new method for sequencing DNA. Proceedings of the National Academy
of Sciences of the United States of America, [S. l.], v. 74, n. 2, pp. 560–564, 1977. Disponível em: http://
www.ncbi.nlm.nih.gov/pubmed/265521. Acesso em: 29 nov. 2018.

MEDEMA, M. H.; BLIN, K.; CIMERMANCIC, P.; DE JAGER, V.; ZAKRZEWSKI, P.; FISCHBACH,
M. A.; WEBER, T.; TAKANO, E.; BREITLING, R. antiSMASH: rapid identification,
annotation and analysis of secondary metabolite biosynthesis gene clusters in bacterial
and fungal genome sequences. Nucleic Acids Research, [S. l.], v. 39, n. suppl. 2,
pp. W339–W346, 2011. Disponível em: https://doi.org/10.1093/nar/gkr466. Acesso em: 23 jun. 2021.

MEDEMA, M. H.; FISCHBACH, M. A. Computational approaches to natural product discovery. Nature


Chemical Biology, [S. l.], v. 11, n. 9, pp. 639-648, 2015. Disponível em: http://www.nature.com/articles/
nchembio.1884. Acesso em: 23 jun. 2021.

NAGARAJAN, N.; COOK, C.; DI BONAVENTURA, M. P.; GE, H.; RICHARDS, A.; BISHOP-LILLY, K. A.; DESALLE,
R.; READ, T. D.; POP, M. Finishing genomes with limited resources: lessons from an ensemble of microbial
genomes. BMC Genomics, [S. l.], v. 11, n. 1, 2010.

NGUYEN, T. L.; KIM, Do-H. Genome-wide comparison reveals a probiotic strain lactococcus lactis WFLU12
isolated from the gastrointestinal tract of Olive Flounder (Paralichthys Olivaceus) harboring genes
supporting probiotic action. Marine Drugs, [S. l.], v. 16, n. 5, p. 140, 2018. Disponível em: http://www.
mdpi.com/1660-3397/16/5/140. Acesso em: 23 jun. 2021.

NIELSEN, C. B.; CANTOR, M.; DUBCHAK, I.; GORDON, D.; WANG, T. Visualizing genomes: techniques and
challenges. Nature Methods Nature Publishing Group, 2010. Disponível em: https://www.nature.com/
articles/nmeth.1422. Acesso em: 10 fev. 2021.

18
Referências

OLSEN, J. V.; MANN, M. Status of large-scale analysis of posttranslational modifications by mass


spectrometry. Molecular and Cellular Proteomics. American Society for Biochemistry and Molecular
Biology, 2013. Disponível em: http://www.mcponline.org. Acesso em: 11 jan. 2021.

PENG, Yu; LEUNG, H. C. M.; YIU, S. M.; CHIN, F. Y. L. IDBA – A practical iterative de Bruijn Graph de novo
assembler. Lecture Notes in Computer Science, [S. l.], v. 6044 LNBI, pp. 426-440, 2010. Disponível em:
http://link.springer.com/10.1007/978-3-642-12683-3_28. Acesso em: 6 dez. 2019.

PENHA, R. O.; VANDENBERGHE, L. P. S.; FAULDS, C.; SOCCOL, V. T.; SOCCOL, C. R. Bacillus lipopeptides
as powerful pest control agents for a more sustainable and healthy agriculture: recent studies and
innovations. Planta, [S. l.], v. 251, n. 3, p. 70, 2020. Disponível em: https://doi.org/10.1007/s00425-020-
03357-7. Acesso em: 25 nov. 2020.

PERNEMALM, M.; LEHTIÖ, J. Mass spectrometry-based plasma proteomics: State of the art and future
outlook. Expert Review of Proteomics. Expert Reviews Ltd., 2014. Disponível em: https://www.tandfonline.
com/doi/abs/10.1586/14789450.2014.901157. Acesso em: 11 jan. 2021.

SANGER, F.; NICKLEN, S.; COULSON, A. R. DNA sequencing with chain-terminating inhibitors. Proceedings
of the National Academy of Sciences, [S. l.], v. 74, n. 12, pp. 5463-5467, 1977. Disponível em: http://
www.pnas.org/cgi/doi/10.1073/pnas.74.12.5463. Acesso em: 28 nov. 2018.

SCHUNKERT, H. et al. Large-scale association analysis identifies 13 new susceptibility loci for coronary
artery disease. Nature Genetics, [S. l.], v. 43, n. 4, pp. 333-340, 2011. Disponível em: https://www.nature.
com/articles/ng.784. Acesso em: 15 jan. 2021.

VERDONK, J. C.; DE VOS, C. H. Ri.; VERHOEVEN, H. A.; HARING, M. A.; VAN TUNEN, A. J.; SCHUURINK, R.
C. Regulation of floral scent production in petunia revealed by targeted metabolomics. Phytochemistry,
[S. l.], v. 62, n. 6, pp. 997-1008, 2003.

VOIGHT, B. F. et al. Twelve type 2 diabetes susceptibility loci identified through large-scale association
analysis. Nature Genetics, [S. l.], v. 42, n. 7, pp. 579-589, 2010. Disponível em: http://www.nature.com/
articles/ng.609. Acesso em: 23 jun. 2021.

WARBURG, O. On the origin of cancer cells. Science, [S. l.], v. 123, n. 3191, pp. 309-314, 1956. Disponível
em: http://www.jstor.org/stable/1750066. Acesso em: 23 jun. 2021.

ZEGGINI, E. et al. Meta-analysis of genome-wide association data and large-scale replication identifies
additional susceptibility loci for type 2 diabetes. Nature Genetics, [S. l.], v. 40, n. 5, pp. 638-645, 2008.
Disponível em: http://www.nature.com/naturegenetics. Acesso em: 16 jan. 2021.

ZERBINO, D. R.; BIRNEY, E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs.
Genome Research, [S. l.], v. 18, n. 5, pp. 821-829, 2008. Disponível em: http://www.ncbi.nlm.nih.gov/
pubmed/18349386. Acesso em: 24 out. 2018.

19
Referências

ZIEMERT, N.; ALANJARY, M.; WEBER, T. The evolution of genome mining in microbes – a review. Natural
Product Reports, [S. l.], v. 33, n. 8, pp. 988-1005, 2016. Disponível em: http://www.secondarymetabolites.
org. Acesso em: 25 nov. 2020.

ZIEMERT, N.; PODELL, S.; PENN, K.; BADGER, J. H.; ALLEN, E.; JENSEN, P. R. The natural product domain
seeker NaPDoS: a phylogeny based bioinformatic tool to classify secondary metabolite gene diversity.
PLOS ONE, [S. l.], v. 7, n. 3, p. e34064, 2012. Disponível em: https://doi.org/10.1371/journal.pone.0034064.
Acesso em: 3 dez. 2018.

Figuras
Figura 1: https://www.cmu.edu/chemistry/facilities/cma/img/MS-LTQ-XL-Linear_Ion_Trap-0487-900x600.
jpg. Acesso em: 23 jun. 2021.

Figura 2: https://cdn.britannica.com/s:1500x700,q:85/77/9677-004-5B5C4E6E/Penicillium-notatum-source-
penicillin.jpg. Acesso em: 23 jun. 2021.

Figura 3: https://www.mun.ca/biology/scarr/MGA2-02-41.jpg. Acesso em: 23 jun. 2021.

Figura 4: https://i1.wp.com/explorebiotech.com/wp-content/uploads/2017/02/junk_dna_header-1.
jpg?resize=768%2C282&ssl=1. Acesso em: 23 jun. 2021.

Figura 5: https://s1.slide-share.ru/s_slide/ba7c4e9aefc284e6ce57dd4c38603835/21314eae-9aca-4922-
89f9-632b8ba217bc.jpeg. Acesso em: 23 jun. 2021.

Figura 6: https://genome.ucsc.edu/cgi-bin/hgTracks?db=dm6&lastVirtModeType=default&lastVirtMo
deExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr2L%3A826001%
2D851000&hgsid=983877915_UycY1zULMHGhgHXfFIBW0toiuhAf. Acesso em: 23 jun. 2021.

Figura 7: https://www.ensembl.org/Danio_rerio/Location/View?db=core;g=ENSDARG00000060566
;r=21:39412438-39456095. Acesso em: 23 jun. 2021.

Figura 8: https://www.ncbi.nlm.nih.gov/genome/gdv/browser/genome/?id=GCF_000001895.5. Acesso


em: 23 jun. 2021.

Figura 9: https://www.creative-proteomics.com/blog/wp-content/uploads/2018/06/Strategies-for-Post-
Translational-Modifications-PTMs-0.png. Acesso em: 23 jun. 2021.

Figura 10: https://ars.els-cdn.com/content/image/3-s2.0-B9780128046593000154-f15-04-97801


28046593.jpg?_. Acesso em: 23 jun. 2021.

Figura 11: https://www.creative-proteomics.com/blog/wp-content/uploads/2017/11/EI.png. Acesso em:


23 jun. 2021.

Figura 12: https://www.intechopen.com/media/chapter/68389/media/F4.png. Acesso em: 23 jun. 2021.

Figura 13: https://chem.libretexts.org/@api/deki/files/25705/image002.png?revision=1&size=bestfit&


width=434&height=385Figura 13: https://www.sigmaaldrich.com/content/dam/sigma-aldrich/articles/
biology/Glycobiology/positive-ion-maldi-ms.jpg. Acesso em: 23 jun. 2021.

20
Referências

Figura 14: https://www.sigmaaldrich.com/content/dam/sigma-aldrich/articles/biology/Glycobiology/


positive-ion-maldi-ms.jpg. Acesso em: 23 jun. 2021.

Figura 16: https://marvel-b1-cdn.bc0a.com/f00000000230458/www.leco.com/media/k2/items/cache/de


b45d333d0414ba3de42155789fdb4a_L.jpg. Acesso em: 23 jun. 2021.

Figura 17: https://www.mccrone.com/wp-content/uploads/2017/01/HPLC-MS-MS_01.jpg. Acesso em:


23 jun. 2021.

Figura 22: https://antismash.secondarymetabolites.org/#!/start. Acesso em: 23 jun. 2021.

Figura 23: https://npdomainseeker.sdsc.edu/run_analysis.html. Acesso em: 23 jun. 2021.

Figura 24: https://sfvideo.blob.core.windows.net/sitefinity/images/default-source/default-album/decoded-


temp-image-storage/19_ng_lib-prep-frag.png?sfvrsn=9e0a1b07_4. Acesso em: 23 jun. 2021.

Figura 26: https://docplayer.net/17426695-Cluster-generation-module-2-overview.html. Acesso em: 23


jun. 2021.

Figura 27: https://snipcademy.com/img/articles/ngs-techniques/bridge-pcr/step4.svg. Acesso em: 23


jun. 2021.

Figura 28: http://data-science-sequencing.github.io/Win2018/assets/lecture2/Figure5_


IlluminaInfoCollection.png. Acesso em: 23 jun. 2021.

Figura 29: elaborada pelo autor.

Figura 30: elaborada pelo autor.

Figura 31: https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRyIgC5vgeZKRNExBAqE9COElT3v


V4mox6SLg&usqp=CAU. Acesso em: 23 jun. 2021.

Figura 32: elaborada pelo autor.

Figura 33: elaborada pelo autor.

Figura 35 http://combo.dbe.unifi.it/contiguator, http://combo.dbe.unifi.it/medusa.

Figura 36: elaborada pelo autor.

Figura 37: elaborada pelo autor.

Figura 38: elaborada pelo autor.

Figura 39: elaborada pelo autor.

Figura 40: elaborada pelo autor.

Figura 41: elaborada pelo autor.

Figura 43: https://images.indianexpress.com/2017/10/fruit-fly.jpg.

Figura 44: https://media.cheggcdn.com/media%2F3fa%2F3fa1cce9-cd6c-49c2-a941-ea967cd07f


59%2FphpINCFtd.png. Acesso em: 23 jun. 2021.

Figura 45: https://ecoliwiki.org/colipedia/images/1/1b/Mauve_example.jpg. Acesso em: 23 jun. 2021.

21
Referências

Figura 48: https://study.com/cimages/multimages/16/duplicate1.png. Acesso em: 23 jun. 2021.

Figura 50: https://www2.le.ac.uk/projects/vgec/schoolsandcolleges/Microbial%20Sciences/mutation-and-


gene-tranfer/hgt. Acesso em: 23 jun. 2021.

Figura 53: https://nitrocdn.com/BzukxzxIDWSkBjOuXIuFVkjjEriFmqlw/assets/static/optimized/rev-3a96da2/


wp-content/uploads/2020/02/Mutation-Frequency-and-Polyploidy-734x576.jpg. Acesso em: 23 jun. 2021.

22

Você também pode gostar