Você está na página 1de 131

BIOINFORMÁTICA PARA

TRANSCRIPTÔMICA E
METABOLÔMICA
Elaboração

Brenda Neves Porto

Produção

Equipe Técnica de Avaliação, Revisão Linguística e Editoração


SUMÁRIO

APRESENTAÇÃO......................................................................................................................................................... 5

ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA.................................................................................. 6

INTRODUÇÃO.............................................................................................................................................................. 8

UNIDADE I
BIOINFORMÁTICA.................................................................................................................................................................................................................. 11

CAPÍTULO 1
INTRODUÇÃO À BIOINFORMÁTICA................................................................................................................................................................ 11

CAPÍTULO 2
PROBLEMAS-ALVO.............................................................................................................................................................................................. 17

CAPÍTULO 3
TENDÊNCIAS E DESAFIOS................................................................................................................................................................................ 19

UNIDADE II
ANÁLISE TRANSCRIPTÔMICA....................................................................................................................................................................................... 23

CAPÍTULO 1
CONCEITO E IMPORTÂNCIA DO TRANSCRIPTOMA............................................................................................................................. 26

CAPÍTULO 2
ANÁLISE DA EXPRESSÃO GÊNICA (TÉCNICAS).................................................................................................................................... 34

CAPÍTULO 3
MÉTODOS PARA ANALISAR OS RESULTADOS DA EXPRESSÃO GÊNICA................................................................................. 47

UNIDADE III
O QUE É METABOLÔMICA?.............................................................................................................................................................................................. 55

CAPÍTULO 1
INTRODUÇÃO......................................................................................................................................................................................................... 55

CAPÍTULO 2
PRINCIPAIS METABÓLITOS............................................................................................................................................................................. 59

CAPÍTULO 3
ÁREAS DE ATUAÇÃO........................................................................................................................................................................................... 71

UNIDADE IV
ANÁLISE METABOLÔMICA?............................................................................................................................................................................................ 87

CAPÍTULO 1

COLETA E EXTRAÇÃO DE AMOSTRA PARA REALIZAR ANÁLISES DE METABOLÔMICA.................................................... 87

CAPÍTULO 2
TÉCNICAS USADAS EM METABOLÔMICA................................................................................................................................................. 91
CAPÍTULO 3
PROCESSAMENTO DE DADOS....................................................................................................................................................................... 99

UNIDADE V
INTEGRAÇÃO DAS “ÔMICAS” E METABOLÔMICA............................................................................................................................................... 106

CAPÍTULO 1
RECURSOS DE BIOINFORMÁTICA.............................................................................................................................................................. 109

CAPÍTULO 2
GENÔMICA, TRANSCRIPTÔMICA E PROTEÔMICA............................................................................................................................... 112

CAPÍTULO 3
METABOLÔMICA E INTERATÔMICA............................................................................................................................................................ 119

REFERÊNCIAS......................................................................................................................................................... 130
APRESENTAÇÃO

Caro aluno

A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se


entendem necessários para o desenvolvimento do estudo com segurança e qualidade.
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como
pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia
da Educação a Distância – EaD.

Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade


dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos
específicos da área e atuar de forma competente e conscienciosa, como convém
ao profissional que busca a formação continuada para vencer os desafios que a
evolução científico-tecnológica impõe ao mundo contemporâneo.

Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo


a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na
profissional. Utilize-a como instrumento para seu sucesso na carreira.

Conselho Editorial

5
ORGANIZAÇÃO DO CADERNO
DE ESTUDOS E PESQUISA

Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em


capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de
textos básicos, com questões para reflexão, entre outros recursos editoriais que visam
tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta
para aprofundar seus estudos com leituras e pesquisas complementares.

A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.

Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto
antes mesmo de iniciar sua leitura ou após algum trecho pertinente para
o autor conteudista.

Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma
pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em
seu raciocínio. É importante que ele verifique seus conhecimentos, suas
experiências e seus sentimentos. As reflexões são o ponto de partida para
a construção de suas conclusões.

Sugestão de estudo complementar


Sugestões de leituras adicionais, filmes e sites para aprofundamento do
estudo, discussões em fóruns ou encontros presenciais quando for o caso.

Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam
para a síntese/conclusão do assunto abordado.

6
Organização do Caderno de Estudos e Pesquisa

Saiba mais
Informações complementares para elucidar a construção das sínteses/
conclusões sobre o assunto abordado.

Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando
o entendimento pelo aluno sobre trechos mais complexos.

Para (não) finalizar


Texto integrador, ao final do módulo, que motiva o aluno a continuar a
aprendizagem ou estimula ponderações complementares sobre o módulo
estudado.

7
INTRODUÇÃO

A Bioinformática é uma ciência que surgiu da união entre a Biologia e a Ciência


da Computação criando-se uma nova área multidisciplinar, a qual emprega
conhecimentos da estatística, matemática, informática, biologia, química,
bioquímica, física, dentre outras.

Sua importância está em extrair a informação biológica contida na sequência


de DNA dos organismos utilizando programas de computação por meio de
análises dos dados. Assim, pode-se fazer inferências, realizar conexões e
predições importantes e relevantes nos estudos científicos. Atualmente, a
bioinformática é conhecida como uma ciência aplicada. Por meio dela é possível
estudar não só a estrutura do DNA de diferentes organismos, mas também
a funcionalidade dos seus genes por meio da codificação de suas proteínas,
por sua localização celular e até pela sua presença e participação em certas
vias metabólicas.

O estudo das interações entre as diferentes biomoléculas e das variações


genéticas presentes em uma população torna mais complexa a imensa quantidade
de informação gerada pelos projetos genoma.

As sequências genômicas são complementadas por outros tipos de dados,


por exemplo, transcriptoma, proteoma e metaboloma. A pontencialidade
para a vida de um organismo está contida em seu genoma, entretanto é na
transcriptômica e na metabolômica que se encontram as informações sobre
como os sistemas funcionam.

Juntamente com a evolução do conhecimento científico e da expansão das


pesquisas dos projetos genomas, é que surgiu a necessidade de se estudar e
entender toda a informação gerada em larga escala do ponto de vista de sua
função. As primeiras abordagens envolvendo o estudo da funcionalidade de
forma integrada em uma célula ou em um tecido surgiram com a criação da
transcriptômica e, mais tarde, para se estudar o conjunto de metabólitos de
um organismo, surgiu a metabolômica.

Com base nas informações acima, o objetivo deste material é apresentar e


discutir os pontos mais importantes sobre o que é bioinformática, como ela
surgiu e qual a sua importância nos estudos de transcriptômica e metabolômica.

8
Objetivos
» Apresentar uma visão geral sobre bioinformática.

» Demonstrar o que é transcriptômica.

» Mostrar como se faz o controle de qualidade das sequências


transcriptômicas.

» Ensinar como se faz a quantificação da expressão de genes.

» Analisar a expressão diferencial de genes.

» Demonstrar o que é metabolômica.

» Identificar o que são metabólitos.

» Apresentar como se analisa dados metabólicos.

» Abordar análises integradas metabolômica com transcriptômica.

» Apresentar as ferramentas utilizadas para realizar as análises.


BIOINFORMÁTICA UNIDADE I

CAPÍTULO 1
Introdução à bioinformática

A Bioinformática é uma ciência que surgiu da união entre Biologia e Ciência


da Computação criando-se uma nova área multidisciplinar, a qual emprega
conhecimentos de estatística, matemática, informática, biologia, química,
bioquímica, física, dentre outras.

Ela surge a partir do momento em que se inicia o uso de ferramentas


computacionais para realizar análises de dados genéticos, com o objetivo
principal de entender a grande quantidade de dados que vem sendo gerada
por meio dos estudos dos projetos genomas.

Apesar de ser uma ciência nova, a bioinformática está em constante


desenvolvimento e expansão e é hoje considerada uma necessidade não apenas
para realizar as análises de dados de sequenciamento de DNA, mas também
para armazená-los.

Além disso, a bioinformática vai servir para interpretar a linguagem dos


genes por algoritmos, criar bancos de dados, obter aprendizado automático
a partir de grande volume de dados, gerar hipóteses a partir dos dados, ler
as informações contidas no código genético e desenvolver softwares que
otimizem a análise de bancos de dados.

Do lado da informática, a história começa na década de 1940 com a invenção


do moderno computador digital, o qual passou a armazenar os dados por meio
da utilização de um alfabeto binário: 0 e 1 (liga/desliga) (figura 1).

Entretanto, foi preciso esperar até meados dos anos 1990 com a criação
de computadores cada vez mais avançados, com capacidade de armazenar
informações de maneira mais rápida a um custo menor.

11
Unidade i | Bioinformática

Na década de 1970, a unidade básica de armazenamento de informação era o


kilobyte, o que armazenaria aproximadamente 1000 letrinhas do código genético.

No entanto, em 1995 já havia computadores capazes de processar e armazenar


milhões dessas letrinhas.

Figura 1. Colossus – computador digital da década de 1940.

Fonte: Tecmundo, 2013.

Do lado da biologia, a história começa no ano de 1944 quando os cientistas


descobrem que o DNA é a molécula que armazena toda informação genética
dos seres vivos, e não as proteínas como se pensava anteriormente.

Já em 1953, com a descoberta da dupla hélice do DNA, comprovou-se que a


informação genética também é armazenada na forma digital, com um alfabeto
quaternário: A, C, T e G. Mais tarde, descobriu-se que os genes também
operam de maneira digital, podendo ser “ligados” ou “desligados”.

Entretanto, apesar da estrutura da molécula de DNA ter sido desvendada não


era possível “ler” a informação contida nela. Foi preciso esperar até 1977,
quando surgiu o primeiro método de sequenciamento manual.

A partir do final da década de 1990, surgiram os primeiros sequenciadores,


os quais possuíam capilares, mais finos que um fio de cabelo. Eram por esses
capilares que ocorria a eletroforese.

Esses capilares apresentam uma solução polimérica por onde passa a molécula de
DNA guiada por uma corrente elétrica. A utilização da marcação com moléculas
fluorescentes dos didesoxinucleotídeos necessários para o sequenciamento

12
Bioinformática | Unidade i

do DNA, tornam a metodologia mais rápida e segura, quando comparada as


reações tradicionais realizadas com marcadores radioativos.

Foi exatamente com a união dessas duas tecnologias em um só aparelho que


permitiu o desenvolvimento rápido da bioinformática.

O primeiro aparelho, conhecido como ABI Prism 3700, foi criado pela
empresa Applied Biosystems. Ele apresentava 96 capilares para a eletroforese
e sequenciava até 600 pares de bases por dia (figura 2).

Atualmente existem sequenciadores muito mais potentes formados por mais


de 300 capilares sequenciando genomas inteiros por dia.

Figura 2. Sequenciador ABI Prism 3700.

Fonte: Verli et al., 2014.

Assim, podemos definir a bioinformática como um estudo ou uma ferramenta


computacional que produz ou obtém informações biológicas a partir de
sequências de biomoléculas, a qual pode ser separada em duas vertentes:

» bioinformática clássica: também conhecida como a bioinformática


tradicional, aborda, principalmente, estudos relacionados à sequência
de nucleotídeos e aminoácidos;

» bioinformática estrutural: está ligada aos estudos biológicos de um


ponto de vista tridimensional, abrangendo a maior parte das técnicas
compreendidas pela química computacional e modelagem molecular.

13
Unidade i | Bioinformática

Um exemplo do estudo dessas duas vertentes é o trabalho clássico dos


pesquisadores James Watson e Francis Crick na revista “Nature” em 1953
sobre a estrutura em dupla hélice da molécula de DNA.

Nesse momento, as bases moleculares para o entendimento estrutural dos


processos biológicos da replicação, transcrição e tradução do material genético
foram apresentadas, permitindo-nos entender como aquela “sequência de
letras” (as bases do DNA) se organiza tridimensionalmente.

Passaram-se mais de dez anos desde essa publicação para começarem os


relatos do uso de programas de computadores para visualizar estruturas
tridimensionais de moléculas. Merece destaque o trabalho da pesquisadora
Margaret Dayhoff, que demonstrou a estrutura tridimensional dos efetores
da informação genética.

Ela foi uma das pioneiras na utilização de computadores para o estudo de


biomoléculas, incluindo tanto ácidos nucleicos quanto proteínas. É ela que inicia
o uso da representação de uma única letra para descrever cada aminoácido ao
invés das usuais três letras, em uma época em que os dados eram armazenados
em cartões perfurados.

Margaret Dayhoff também criou as primeiras matrizes de substituição e fez


importantes contribuições no desenvolvimento dos estudos filogenéticos,
além de desenvolver métodos para o estudo de moléculas por cristalografia
de raios-X.

E existem ainda três princípios que são utilizados nos estudos que envolvem
a bioinformática: princípio do tijolo, princípio da peneira e o princípio da
lupa. Os estudos de bioinformática que envolvem o princípio do tijolo são
ferramentas produzidas para construir os edifícios genômicos e, por isso,
estão relacionados aos projetos genoma.

Essas ferramentas são utilizadas para analisar as sequências e interpretar


genomas. Um exemplo de uma ferramenta clássica utilizada nesses estudos é o
base calling que realiza a leitura das bases da molécula de DNA no sequenciador
a partir dos cromatogramas, os quais, posteriormente, são transformados em
uma sequência apresentando um índice de confiabilidade para cada letra da
molécula de DNA.

14
Bioinformática | Unidade i

Aqui podemos ainda incluir as ferramentas utilizadas para realizar o controle


da qualidade das sequências, por exemplo, FastQC, Trimmomatic, FastX
Toolkit, NGS Toolkit.

Já os estudos de bioinformática que envolvem o princípio da peneira estão


relacionados com a mineração de dados genômicos, ou seja, com a descoberta
das funções biológicas dos genes identificados nos estudos genômicos (figura 3).

A quantidade de informações geradas por um projeto genoma torna


virtualmente impossível a análise destas pelo grupo que gerou essa sequência
completa de DNA.

Assim, a fragmentação e a divisão do genoma em grupos de genes por sua


função biológica geram um conhecimento específico e mais aprofundado sobre
aspectos de interesse de pesquisadores.

E a construção de bancos de dados de genes que apresentam funções específicas


ou que apresentem suas estruturas tridimensionais são exemplos da aplicação
desse princípio.

Figura 3. Funções biológicas dos genes.

Metabolismo de
lipídeos
Metabolismo de Função desconhecida
nucleotídeo

Metabolismo de
Tradução
aminoácidos

Produção de Transcrição
energia

Tradução de sinais
Replicação e
reparo

Transporte de
íons inorgânicos
Modificações pós-traducionais
Proteínas de membrana
Chaperones
Mobilidade celular
Secreção
Divisão celular

Fonte: Prosdocimi; Santos, 2006.

Contudo, são os estudos de bioinformática que envolvem o princípio lupa


em que o método científico é rigorosamente aplicado, ou seja, é nesse
princípio que temos a aplicação de hipóteses, experimentação e resultados
para poder comprovar ou refutar um trabalho por meio da utilização de
algoritmos bioinformáticos.

15
Unidade i | Bioinformática

É importante saber que nesse princípio a bioinformática é utilizada apenas


como uma ferramenta meramente investigativa para solucionar a hipótese e
os resultados do estudo. Ao contrário do que ocorre nos princípios tijolo e
peneira em que a bioinformática é utilizada como o centro do estudo.

Um exemplo aplicável desse princípio são os estudos de genômica comparativa em


que se permitem associar aspectos da biologia dos organismos comparados à presença
ou à ausência de determinado gene, grupo de genes ou processos metabólicos.

Com o passar dos anos, a tecnologia e os conhecimentos científicos foram


evoluindo e diversos avanços foram realizados progressivamente tanto no
entendimento das biomoléculas quanto nas técnicas computacionais. Com
isso, os maiores impactos na área da ciência se encontram na bioinformática.

16
CAPÍTULO 2
Problemas-alvo

Com o avanço nos estudos de projetos genoma e o baixo custo no poder


computacional, houve um aumento explosivo no volume de dados oriundos
de pesquisas genômicas estruturais.

E isso ainda está longe de acabar, pois atualmente estão em crescimento os


estudos de transcriptoma e metaboloma que vêm agregar conhecimento sobre
a função dos sistemas biológicos potencializando as aplicações terapêuticas
e biotecnológicas.

Hoje, é possível identificar um novo candidato a receptor-alvo de novos


fármacos a partir de organismos muito distantes evolutivamente de nós, como
leveduras, bactérias ou plantas.

Diante dessa situação surge a necessidade de atualização e renovação dos


procedimentos computacionais para armazenamento e análises correta dos
dados, que exige cada vez mais avanços em hardwares, softwares, estratégias
de análises de dados e construção de modelos.

Podemos agrupar os problemas encontrados na bioinformática em dois grupos:


os relacionados com as análises estruturais das sequências e os relacionados
com as estruturas tridimensionais (3D) das biomoléculas.

No primeiro grupo, encontram-se o alinhamento de sequências, a predição


de genes e sua função, a filogenia e biologia de sistemas. No segundo grupo,
tem-se a modelagem de estruturas das biomoléculas, a modelagem comparativa
entre as estruturas das biomoléculas, a dinâmica molecular e o atracamento
molecular.

As análises de sequências, quando comparadas às análises de estruturas


tridimensionais, são menos custosas computacionalmente, ou seja, exigem pouco
processamento; por isso, permitem realizar várias análises simultaneamente
entre indivíduos ou entre várias populações. E também nos permite até
trabalhar com genomas inteiros.

Por meio dessas análises podem ser realizadas comparações entre sequências
(alinhamentos), identificação de padrões em sequências (assinaturas), estudos
de filogenia, construção e anotação de genomas e construção de redes (biologia
de sistemas).

17
Unidade i | Bioinformática

Entretanto, as análises de estruturas tridimensionais demandam uma capacidade


muito maior de processamento, não permitindo trabalhar com apenas uma
ou um pequeno número de estruturas ao mesmo tempo, incluindo obtenção
de modelos tridimensionais para proteínas e outras biomoléculas por meio de
modelagem comparativa, atracamento (identificação do modo de interação de
moléculas), seleção de compostos com maior potencial de inibição e dinâmica
molecular (caracterização da flexibilidade molecular e avaliação do efeito
de mudanças na estrutura e ambiente molecular na dinâmica e função de
biomoléculas).

Sabe-se que as estruturas tridimensionais das biomoléculas são muito mais


difíceis de serem manipuladas do que as sequências. Desse modo, é muito
comum o uso de sequências nos estudos estruturais para a construção de
modelos tridimensionais na modelagem comparativa.

Mas o contrário também ocorre. Para explicar as conservações de resíduos


ao longo da evolução nas sequências, é utilizado o alinhamento de sequência
à estrutura tridimensional.

Assim, a bioinformática, apesar de ser uma área nova, está em acelerado


desenvolvimento e por isso exige a aplicação de abordagens e tecnologias cada
vez mais rápidas e eficientes para que os resultados obtidos em seus estudos
sejam confiáveis e eficientes.

18
CAPÍTULO 3
Tendências e desafios

Os estudos que envolvem a bioinformática apresentam grande impacto na


comunidade científica; por isso, despertam uma forte tendência à competição.
E para que os trabalhos não se tornem ineficientes nem obsoletos, devemos
sempre estar à frente utilizando ferramentas, softwares e hardwares sofisticados.

Do lado da informática os maiores desafios encontrados são em relação ao


desenvolvimento de CPUs (unidades de processamento central) e de GPUs
(unidades de processamento gráfico).

As CPUs nada mais são que os processadores de um computador, ou seja,


são eles os responsáveis pela execução dos comandos estabelecidos pelos
programas. Surgiram no século XX e tornam-se cada vez mais complexos,
rápidos, baratos e confiáveis.

Com essas características pode-se desenvolver, a cada ano, modelos mais


precisos que serão utilizados, por exemplo, nos estudos de fenômenos biológicos,
progressivamente mais complexos.

Na prática, o avanço da bioinformática está ligado intrinsecamente à lei de


Moore, a qual mostra que a cada dois anos dobra-se o número de transistors
em um processador.

Atualmente, a grande maioria dos processadores empregados em computadores


apresenta mais de um microprocessador, o chamado multiprocessador. Esse
multiprocessador apresenta vários núcleos, facilitando assim com que as
ferramentas utilizadas nos programas de bioinformática possam realizar
várias tarefas ou uma mesma tarefa em vários “lugares” ao mesmo tempo
(em diferentes núcleos ao mesmo tempo), diminuindo o tempo de análise ou
obtendo o resultado em menor tempo.

As GPUs são microprocessadores desenvolvidos para a manipulação de


representações gráficas e se localizam nas placas de vídeo dos computadores.
Surgiu com o aumento do emprego de gráficos em 3D, no início dos anos
1990. Possuem de centenas até milhares de núcleos de processamento, o que
permite grande aceleração na manipulação de polígonos e formas geométricas.

19
Unidade i | Bioinformática

Várias ferramentas utilizadas em bioinformática usam GPUs, por exemplo,


alinhamento de sequências nas análises filogenéticas, atracamento molecular
nas análises de dinâmica molecular, dentre outras.

Desse modo, ao dividir a carga de trabalho em um grande número de núcleos


de processamento, abriram-se grandes possibilidades em computação científica,
implicando em grande aumento na velocidade de manipulação de dados.

Do lado da biologia, os maiores desafios encontrados são, principalmente, em


relação à predição de sequências, à predição de energia livre, ao enovelamento
de proteínas e à validação experimental.

No que diz respeito aos estudos de predição de sequências, é de suma importância


determinar o papel funcional de uma sequência de nucleotídeos presentes na
molécula de DNA, ou seja, é fundamental saber se nessa sequência estão ou
não presentes genes, se eles vão ou não codificar uma proteína, que proteína
é essa e qual a sua função.

Entretanto, para realizar essas análises, são utilizados bancos de dados que
contêm sequências com características e propriedades específicas. Apesar de
já existir um número muito grande de genomas de organismos sequenciados,
somente uma pequena parte dos genes está com sua função determinada. Isso
demonstra a importância dos estudos em transcriptômica e metabolômica
para que haja avanços nesse tipo de análise.

Quanto à predição de energia livre, sabe-se que os fenômenos moleculares


são regidos pela termodinâmica e entendê-la é fundamental para descrever
esses fenômenos por meio de sua previsão computacional.

Essa metodologia de estudo é utilizada na identificação da estrutura secundária


de moléculas de RNA, na localização de regiões do DNA para ligação de
reguladores da transcrição, para a especificidade de enzimas por substratos e
receptores por ligantes ou moduladores.

Assim, poderemos substituir vários experimentos realizados em bancada


por cálculos feitos em computador. Entretanto, devido ao elevado custo
computacional, essa estratégia continua sendo um desafio.

20
Bioinformática | Unidade i

Já o estudo sobre enovelamento de proteínas é um dos processos mais complexos,


uma vez que o número de estados conformacionais para uma proteína pequena
é imenso e apenas alguns são observados em condições nativas.

Determinar a estrutura tridimensional de uma biomolécula contribui para


o entendimento de estudos evolutivos, de como funcionam os seres vivos,
como as doenças se desenvolvem e como podem ser tratadas, como as enzimas
exercem suas funções catalíticas, dentre outros.

Além de ser possível construir novas proteínas, capazes de adotar formas


que a natureza não previu até o momento, enzimas aptas a catalizar reações
de importância econômica, com menor toxicidade, tendo menor impacto
ambiental.

Contudo, ainda nos falta uma boa base teórica que nos permita entender e
prever, com precisão a estrutura tridimensional de uma proteína.

Mas esse problema vem sendo driblado agregando a esse estudo outras técnicas,
por exemplo, as estruturas cristalografadas que são refinadas por métodos
computacionais reportando informações ausentes nos experimentos.

Outro exemplo é a construção de alças flexíveis, de difícil observação experimental,


mas que podem ser abordadas por diferentes métodos computacionais.

Outro caso em que os métodos computacionais parecem possuir vantagens em


relação aos experimentais envolve os carboidratos. Embora sejam moléculas
mais complexas que as proteínas, eles não sofrem enovelamento nem adotam
tipos de estrutura secundária em solução, tornando-os, na prática, um problema
estrutural mais simples que proteínas. Assim, é possível prever a estrutura
de alguns carboidratos com alta precisão.

E para as moléculas dos ácidos nucléicos, a construção computacional de


estruturas tridimensionais é bem mais simples, uma vez que não requerem
os custos associados a experimentos de cristalografia nem de ressonância
magnética.

Entretanto, para a molécula de RNA, apresenta alguns desafios pontuais


devido à sua alta reatividade.

21
Unidade i | Bioinformática

Para serem validados, os métodos computacionais devem ser confrontados com


os dados experimentais, mas nem sempre há dados experimentais disponíveis
para validar os cálculos e simulações computacionais.

Isso é o que acontece nos alinhamentos de sequência, estudos de filogenia,


predições de estruturas e da flexibilidade das biomoléculas.

Os dados experimentais devem ser adequados ao estudo computacional.


Deve-se levar em consideração a margem de erro dos dados experimentais
quando comparada com os dados computacionais, uma vez que essa margem
de erro para experimentos na bancada é maior que para aqueles realizados
em computadores.

E também devem ser observadas algumas condições quando o experimento for


realizado, como, temperatura, contaminantes, sais e concentrações diferentes
daquelas encontradas no ambiente nativo.

22
ANÁLISE
TRANSCRIPTÔMICA UNIDADE II

Antes de começar os estudos sobre transcriptoma, é importante relembrar alguns


temas abordados em genética básica e biologia molecular. A biologia, desde seu
início, seja com os estudos de Gergor Mendel, investigando as variações genéticas
em plantas, seja com os estudos de Thomas Hunt Morgan, analisando a cor dos
olhos nas moscas das frutas (Drosophila melanogaster), sempre tentou explicar
os fenômenos associados à manutenção da estrutura e a função celular por meio
da análise do comportamento individualizado das biomoléculas.

Nesses primeiros estudos, os cientistas conseguiram inferir a existência de


genes dispostos estruturalmente ao longo do cromossomo, de forma organizada.
Mais tarde, em 1953, com a descoberta da estrutura da molécula de DNA
pelos cientistas James Watson e Francis Crick, iniciaram-se estudos mais
aprofundados sobre estrutura e funcionalidade dos genes, os quais serviram
de base para a proposta de criação do dogma central da biologia molecular,
proposto em 1970 pelo cientista Francis Crick.

O dogma central da biologia molecular nada mais é do que a explicação de


que uma molécula de DNA sofre um processo chamado replicação, o qual
origina novas moléculas de DNA, e estas sofrem outro processo – chamado
de transcrição – e que origina moléculas de RNA, que, por sua vez, sofre um
processo chamado de tradução, originando as proteínas (figura 4).

Figura 4. Dogma central da biologia molecular.

Replicação

Transcrição
Tradução

DNA mRNA PROTEÍNA

Fonte: Zaha et al., 2014.

Desse modo, podemos dizer que toda a informação genética contida em uma
molécula de DNA vai ser expressa na forma de proteínas, as quais produzirão
o fenótipo (características morfológicas, características visuais) de um ser

23
Unidade II | Análise transcriptômica

vivo, que pode variar de acordo com o estado fisiológico, os estímulos físicos,
químicos e biológicos, aos quais ele ou suas células serão submetidos ou expostos.

Entretanto, para que essas proteínas possam desenvolver seus papéis biológicos,
antes, moléculas de RNA mensageiro (mRNA) precisam ser sintetizadas a
partir de uma molécula de DNA molde, para que, finalmente, a tradução
proteica ocorra.

Sabe-se que esses eventos biológicos são extremamente complexos e algumas


descobertas posteriores geraram questionamentos a respeito do dogma central,
o que resultou em sua mudança.

As novas etapas incorporadas ao dogma central da biologia molecular (figura


5), proposto em 1970 pelo cientista Francis Crick, surgiram em decorrência dos
avanços nos estudos científicos. Por exemplo, as modificações pós-replicativas
importantes para a manutenção das moléculas de DNA, que são conhecidas
como processos de metilação e empacotamento. No caso da replicação da
molécula de RNA e sua transcrição reversa servindo de molde para a síntese
de moléculas de DNA sob a ação da enzima transcriptase reversa, encontrada
nos retrovírus, formação de um RNA mensageiro (mRNA) maduro nos seres
eucariotos por meio das modificações pós-transcricionais, como a adição
do CAP na extremidade 5’ e da cauda poliA na extremidade 3’ e a retirada
dos introns pelo processo conhecido de splicing alternativo e adequação e
manutenção do estado nativo e funcional de algumas proteínas por meio das
modificações pós-traducionais, como metilação, fosforilação, glicosilação,
acetilação entre outras.
Figura 5. Dogma central da biologia molecular com novas etapas incorporadas.

Modificações
pós-transcricionais

Transcrição

RNA Proteína
DNA (Senso +) Tradução
Transcrição
Replicação reversa
Replicação
Modificações
pós-traducionais
Modificações
RNA
pós-replicativas
(Antisenso -)
Fonte: Moreira et al., 2015.

24
Análise transcriptômica | Unidade II

Mesmo assim, foi somente no ano de 1990, com as pesquisas nas ciências
genômicas que os cientistas passaram a questionar as abordagens metodológicas
da época e chegaram à conclusão de que haviam atingido o limite na contribuição
para o avanço da ciência. Isso, porque os sistemas biológicos são extremamente
complexos e têm propriedades emergentes que não podem ser explicadas
estudando suas partes individuais (DNA, RNA ou proteínas).
Essa abordagem, denominada reducionista, embora bem sucedida nos primeiros
períodos da biologia molecular, subestimava essa complexidade, chegando
a ter influência negativa em muitas áreas, como a biomedicina, que limitou
durante algum tempo o entendimento sobre doenças neurodegenerativas e a
descoberta de drogas para o seu tratamento.
Embora todas essas doenças sejam decorrentes de alteração no perfil de
proteínas com funções especializadas, os fatores que levam essas proteínas
a perderem suas funções naturais, resultando em quadro patológico, são
inúmeros e de relação bastante complexa, como mostrado na figura 6.
Atualmente, sabe-se que essas doenças neurodegenerativas são multiagênicas e
multifatorais, refletindo na dificuldade de descoberta de novos medicamentos
eficientes para o seu tratamento.
Figura 6. Doenças neurodegenetativas e as proteínas envolvidas.

Alzheimer

-amiloide

Degeneração lobar
frontotemporal Parkinson

Tau -sinucleína

NEURODEGENERAÇÃO

Esclerose lateral
amiotrófica Huntington

Top43 Huntingtina

SOD1 ataxinas

Fonte: Moreira et al., 2015.

25
CAPÍTULO 1
Conceito e importância do
transcriptoma

Junto com a evolução do conhecimento científico e com a expansão das


pesquisas genômicas, no final do século passado, veio também a necessidade
de se estudar e entender toda esta informação gerada em larga escala, só que
de uma maneira funcional.
As primeiras abordagens, envolvendo esta possível funcionalidade de forma
integrada em uma célula ou tecido, vieram com a criação da transcriptômica.
A transcriptômica é uma ciência criada para estudar o transcriptoma, o qual
corresponde ao conjunto de transcritos de um organismo, órgão, tecido ou
célula. Mas quem são esses transcritos?
Lembrando-se que o dogma central da biologia molecular, o conjunto de
transcritos de um organismo, corresponde às moléculas de RNA mensageiro
(mRNA), RNA transportador (tRNA), RNA ribossômico (rRNA), microRNAs
(sRNA) e os RNAs não codificantes (ncRNA).
Mas apenas os mRNA, tRNA e rRNA participam do processo de síntese
proteica (figura 7). O RNA mensageiro contém a mensagem que será traduzida
em proteína, e a sequência de bases no mRNA determina a sequência dos
aminoácidos no polipeptídio. O RNA transportador, como o próprio nome
diz, transporta os aminoácidos específicos para cada códon. E o local da
síntese proteica é o ribossomo, um complexo ribonucleoproteico onde os
RNAs ribossômicos se ligam a proteínas específicas.
Figura 7. Tipos de RNAs que participam da síntese proteica.

3’
5’ Ligação do
Ribossomos
5’ aminoácido
Pontes de hidrogênio
entre as bases Subunidade maior

Subunidade menor

3’

Anticódon

RNA Mensageiro RNA Transportador RNA Ribossômico

Fonte: Slideplayer.com.br.

26
Análise transcriptômica | Unidade II

Visto que estamos falando sobre a molécula de RNA, é importante relembrar


algumas características dessa molécula antes de entrarmos a fundo em seu
estudo. A molécula de RNA, conhecida também como ácido ribonucleico, é
uma biomolécula classificada como ácido nucleico.

Os ácidos nucleicos são macromoléculas biológicas de extrema importância,


presentes em todos os seres vivos. Bioquimicamente falando, essas
macromoléculas são polímeros lineares, ou seja, são formadas pela união de
vários monômeros de nucleotídeos ligados entre si por ligações fosfodiéster.

Cada nucleotídeo é formado por um ácido, um açúcar e uma base nitrogenada.


O ácido é representado pelo grupamento fosfato; o açúcar, por uma pentose
(possui cinco carbonos em sua estrutura); e as bases nitrogenadas (figura 8).

Figura 8. Estrutura molecular de um nucleotídeo.

Base Nitrogenada

Pentose
Grupo Fosfato
Fonte: Zaha et al., 2014.

O ácido presente nos nucleotídeos é o fosfato. É esse ácido que confere carga
negativa a essas moléculas. Cada radical fosfato liga-se ao carbono 3’ OH
livre da pentose do último nucleotídeo da cadeia, e isso se repete sempre no
sentido 5’ – 3’.

O açúcar presente nos nucleotídeos é uma pentose, a qual pode ou não


apresentar em seu carbono 2’ uma hidroxila (OH), o que vai diferenciar uma
pentose presente em uma molécula de DNA ou uma pentose presente em uma
molécula de RNA.

27
Unidade II | Análise transcriptômica

Quando tem a presença de uma hidroxila (OH) no carbono 2’ da pentose, isso


caracteriza uma molécula de RNA e a pentose é chamada de ribose.

A pentose faz a ligação entre a base nitrogenada e o grupamento fosfato. Quando


a molécula apresenta apenas o açúcar (a pentose) ligado à base nitrogenada,
sem a presença de grupo fosfato (ácido), temos um nucleosídeo (figura 9).

Figura 9. Estrutura molecular de um nucleosídeo.

Base Nitrogenada

Pentose

Fonte: Zaha et al., 2014.

Como o açúcar é uma pentose e apresenta cinco carbonos em sua estrutura


molecular, é fundamental saber o que acontece em cada carbono, ou seja,
saber as ligações que ocorrem em cada carbono.

No carbono 1’ da pentose, liga-se a base nitrogenada por ligação glicosídica.

No carbono 2’ da pentose, liga-se ou não uma hidroxila, ou seja, é nesse


carbono que se faz a diferenciação entre uma molécula de DNA ou de RNA,
como explicado anteriormente.

No carbono 3’ da pentose, ocorre a ligação dos nucleotídeos entre si, sempre


no sentido 5’ – 3’, por ligações chamadas de ligação fosfodiéster.

No carbono 4’ da pentose, não ocorre nada em especial. E o carbono 5’ da


pentose liga-se ao grupo fosfato.

As bases nitrogenadas podem ser púricas ou pirimídicas, ambas estão presentes


nas moléculas de DNA e RNA. As bases púricas são representadas pela adenina

28
Análise transcriptômica | Unidade II

(A) e guanina (G), ambas estão presentes tanto na molécula de DNA quanto na
molécula de RNA. Elas derivam das purinas e se caracterizam por apresentar
dois anéis em sua estrutura molecular (figura 10).

Já as bases pirimídicas são representadas pela timina (T), citosina (C) e uracila
(U). Elas derivam das pirimidinas e se caracterizam por apresentar apenas um
anel em sua estrutura molecular (figura 10).

A citocina se encontra tanto na molécula de DNA quanto na molécula de RNA,


no entanto a timina é uma base nitrogenada encontrada apenas na molécula
de DNA, assim como a uracila é exclusiva da molécula de RNA.

Figura 10. Estrutura das bases nitrogenadas. A cima, estrutura das purinas: adenina e guanina. A baixo, estrutura das
pirimidinas: timina, citosina e uracila.

Adenina Guanina

Timina Citosina Uracila

Fonte: Zaha et al., 2014.

A molécula de RNA é responsável por transcrever a informação genética


contida na molécula do DNA, controlando assim quem são os genes que podem
ou não se expressarem em determinada situação por determinado tempo em
determinado local.

A estrutura do RNA foi descrita pelo pesquisador Hoppe-Seyler como uma


molécula, geralmente, fita simples, ou seja, formada apenas de uma cadeia.
No entanto, a molécula de RNA pode interagir entre si de maneira que as
suas bases pareiam uma com as outras, formando dobras.

29
Unidade II | Análise transcriptômica

Dessa maneira, a molécula de RNA pode assumir uma variedade de formas


moleculares tridimensionais complexas. Mas é possível encontrar em alguns
vírus RNA de fita dupla como genoma.

A forma funcional de fita simples do RNA precisa de uma estrutura terciária


específica. O que providencia essa mudança conformacional é a estrutura
secundária e as ligações de hidrogênio.

Isso conduz a vários domínios de estrutura secundária, como as estruturas


em forma de grampos-de-cabelo (hairpin loops). Como as estruturas de RNA
estão carregadas, íons metálicos, como o Mg2+, são necessários para estabilizar
estruturas secundárias e terciárias do RNA.

Os ribonucleotídeos da molécula de RNA também são formados por um


ácido, um açúcar (pentose) e uma base nitrogenada. O ácido, assim como na
molécula de DNA, é o fosfato.

A pentose é chamada de ribose por apresentar a hidroxila (OH) no carbono


2’, e as bases nitrogenadas são as púricas adenina (A) e guanina (G) e as
pirimídicas citosina (C) e uracila (U).

O ácido ribonucleico, assim como as proteínas, pode catalisar reações biológicas


importantes. As moléculas de RNA que atuam como proteínas enzimáticas
são conhecidas como ribozimas.

A molécula de RNA é sintetizada a partir de uma molécula de DNA, a qual se


abre em determinado ponto e nucleotídeos livres vão pareando ao seguimento
aberto. Esse processo é chamado de transcrição e apenas uma das fitas da
molécula de DNA serve como molde para sintetizar uma molécula de RNA,
a qual é chamada de fita antisense (figura 11).

Figura 11. Processo de transcrição.

Codificadora (sense) 5’TATTCCGTGACTTAACTT3’


DNA
Molde (antisense) 3’ATAAGGCACAGAATTGAA5’

5’UAUUCCGUGACUUAACUU3’ RNA

Sentido da transcrição

Fonte: https://slidetodoc.com/conceitos-bsicos-de-biologia-molecular-marclio-c-p/.

30
Análise transcriptômica | Unidade II

Durante a transcrição, apenas segmentos selecionados de uma das fitas do


DNA são utilizados como molde, resultando na transcrição apenas dos genes
necessários em um determinado momento da vida do organismo.

Transcrever regiões não gênicas ou genes cujos produtos não são necessários
num determinado momento é perda de tempo e de energia. Logo, o processo
de transcrição deve ser bastante seletivo e as enzimas e proteínas reguladoras
que dele participam devem ser capazes de distinguir sinais que demarquem as
sequências de interesse, ou seja, onde começar e onde terminar a transcrição
de um segmento.

A transcrição de um segmento se inicia quando a enzima RNA polimerase


reconhece e liga-se a sequências específicas de nucleotídeos em uma região
especial, no início do gene, denominada promotor.

A partir daí, ela se move ao longo da fita molde, sintetizando o RNA até
alcançar outra sequência específica chamada de terminador, a qual sinaliza o
término do processo. Assim, o processo de transcrição estende-se do ponto
de início (+1) no promotor até o terminador.

As sequências que antecedem o ponto de início localizam-se a montante


(upstream) e as que o sucedem localizam-se a jusante (downstream), e a posição
das bases é numerada nos dois sentidos, a partir do ponto de início que recebe
valor +1 aumentando (valor positivo) a jusante e diminuindo (valor negativo)
a montante (figura 12).

Figura 12. Detalhes do processo de transcrição.

à montante à jusante Direção Transcrição

DNA

......-2-1+1+2......
Terminador
Promotor Ponto de início

Fonte: https://slidetodoc.com/conceitos-bsicos-de-biologia-molecular-marclio-c-p/.

O produto imediato do processo de transcrição é o chamado transcrito primário,


o qual não é funcional. Para se tornar funcional, esse transcrito primário sofre
uma série de modificações pós-transcricionais, por exemplo, a adição do CAP
na extremidade 5’, a adição da cauda poli-A na extremidade 3’ e o splicing
alternativo (figura 13).

31
Unidade II | Análise transcriptômica

Figura 13. Etapas do processamento do RNAm em eucariotos.

Éxon Íntron Éxon

gene

Transcrição
Transcrito Primário

Adição do Cap na região 5’ e da cauda Poli A na região 3’.


CAP

AAAA...
Spliciossomo

CAP Splicing

AAAA...

Retirada do Íntron

AAAA... Núcleo

Transporte para Citoplasma


fora do núcleo

RNA mensageiro maduro

Fonte: http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.

Lembrando que essas modificações não ocorrem em organismos procariotos,


uma vez que não possuem compartimentalização, o que permite que os processos
de transcrição e tradução ocorram acoplados, ou seja, antes mesmo do fim da
transcrição, a tradução já se inicia.

No caso dos organismos eucariotos, onde existe compartimentalização, é


preciso que o RNA produzido no núcleo passe por essas modificações para
poder ir até o citoplasma, onde ocorrerá o processo de tradução.

Diferentemente do que acontece com a molécula de DNA, a molécula de RNA


se apresenta de forma variável nas células e com atividade celular dependente
do local e do tempo onde está atuando. Assim também é sua função que varia
de acordo com as suas diferentes classes.

32
Análise transcriptômica | Unidade II

Como os RNA mensageiros são traduzidos em proteínas, foi estabelecido que


o transcriptoma abrange o conjunto desta espécie de RNA e dos microRNAs.
Esta última classe controla a expressão gênica ao nível pós-transcricional,
bloqueando a tradução dos mRNA em proteínas, daí sua importância na
fisiologia celular.

Essa visão em larga escala, dos transcritos gerados, permite interrogar uma
informação genômica em pelo menos três perspectivas principais:

» Quais são os transcritos presentes em um organismo sob determinada


condição fisiológica?

» Qual o modelo de expressão gênica dos transcritos e como eles variam


entre os diferentes tecidos e sob condições diferentes as quais uma
célula ou organismo possa ser exposto?

» Como e que mecanismos de expressão gênica são regulados numa


dada condição fisiológica?

É importante esclarecer que, embora trabalhos em larga escala permitam


entender o transcriptoma completo de um organismo ou célula numa
determinada condição, muitas vezes a confirmação/validação dos resultados
é obtida com algumas análises individuais de genes que foram detectados nesse
experimento. E para isso existem diversas técnicas que podem ser utilizadas.

33
CAPÍTULO 2
Análise da expressão gênica (técnicas)

Nos últimos 60 anos, com o objetivo de se entender o comportamento da


expressão gênica de uma célula ou organismo sob determinada condição
fisiológica, foram criadas diferentes técnicas para analisar os transcritos de
um gene, surgindo assim o que chamamos de transcriptômica.

Vários métodos foram criados para detectar e quantificar transcritos


individuais ou em conjunto, sendo classificados em três categorias: os
baseados em hibridação, como Northern blot e microarranjos; os baseados
em amplificação, por exemplo, o PCR Quantitativo em Tempo Real
(qRT-PCR ou qPCR); e os baseados em sequenciamento, por exemplo,
sequenciamento de bibliotecas de cDNA (ESTs = Expressed Sequence
Tags), bibliotecas SAGE (Serial Analysis of Gene Expression) e RNA-Seq
ou RNA deep sequencing.

Entretanto, o primeiro método utilizado foi a curva de Rot. Esse método


sintetiza RNA a partir do DNA complementar (cDNA), o qual é marcado
radioativamente, desnaturado e hibridizado com o RNA total.

Assim, as moléculas mais abundantes de RNA serão ligadas preferencialmente


em relação às menos abundantes, de forma que a taxa de hibridação da molécula
de cDNA será equivalente à abundância do seu RNA correspondente na amostra
em estudo, ou seja, quanto mais abundante for uma espécie de RNA, mais
rapidamente ela irá se anelar ao seu complementar.

Esse método foi utilizado por Hastie e Bishop em 1976 para demonstrar
que havia um conjunto de RNAs diferentemente expressos em quantidades
equivalentes em diferentes tecidos de camundongos (rins, fígado e cérebro).

Esses pesquisadores também conseguiram demonstrar nesse estudo que algumas


espécies de RNAm encontradas abundantemente no rim estavam ausentes ou
presentes em níveis muito baixos no fígado.

O método Northern blot foi desenvolvido no final dos anos de 1980, baseado
na técnica de Southern blot, desenvolvida pelo pesquisador Edward Southern
e utilizada para detectar identidade, tamanho e abundância de DNA em
uma amostra.

34
Análise transcriptômica | Unidade II

Com a diferença de que, em vez de DNA, a substância analisada aqui é o


RNA. Por meio da utilização desse método, é possível detectar e quantificar
o RNAm e assim entender sua expressão gênica.

Etapas do Northern blot (figura 14):

» Extração do RNA Total ou RNA Mensageiro = os métodos para


o isolamento do RNA total ou RNA mensageiro baseiam-se na
lise e na desnaturação das células que permitem a liberação dos
ácidos nucleicos. Atualmente, há vários reagentes comercialmente
disponíveis, assim como os kits de extração. Existem diferentes
protocolos de extração para os diferentes tecidos.

» Separação do RNA = após extraído o RNA, deve ser separado de acordo


com o seu tamanho molecular por eletroforese em gel de agarose. A
velocidade de migração e o poder de resolução do gel dependem do
tamanho e forma da molécula, ou seja, as moléculas maiores migram
lentamente, enquanto as menores migram rapidamente.

» Desnaturação do RNA = é preciso desnaturar o RNA para que não


ocorra o pareamento entre as bases. Para isso, utilizam-se agentes
desnaturantes no gel, por exemplo, o formaldeído, que reage
covalentemente com os grupos amina da adenina, guanina e citocina.

» Transferência para membrana = a transferência ocorre por ação


capilar, sem o uso de nenhum equipamento especial. Pelo arrasto
que as macromoléculas fazem ao serem atraídas para o polo positivo,
cria-se o borrão do blotting e assim fornece uma reflexão precisa na
membrana com os RNAs separados no gel de agarose. Entretanto,
como o gel é muito frágil para ser sondado diretamente e as sondas
de hibridização não penetram diretamente nos géis, é necessário
imobilizar o RNA. Ele é então imobilizado na membrana, seja
assando no forno a temperaturas elevadas (95 °C por minuto), seja
por exposição UV leve. Essa imobilização irá resultar na ligação
covalente do RNA para a membrana, a qual impedirá que o ácido
nucleico seja lavado durante o processo.

35
Unidade II | Análise transcriptômica

» Hibridização = a hibridização de um ácido nucleico requer que a sonda


tenha a complementaridade de sua sequência de RNAm-alvo, ocorrendo
o pareamento das bases com a sonda marcada por radioisótopo ou
corante fluorescente. Há duas formas principais de hibridização: por
DNA complementar (cDNA) ou por oligonucleotídeos antissentido.
A hibridização por DNA complementar tem suas vantagens por ser
simples e ter seu tempo reduzido, porém está mais propenso a ter
discriminação por RNAses.

» Revelação = na detecção da hibridização, observa-se se houve ou não


a identificação do gene-alvo. Os sinais são detectados, em maioria
por filmes de raios-X (por radioatividade ou quimiluminescência) e
quantificados por densitometria, que é a medição da densidade óptica
em chapas fotográficas. Essa quantificação é baseada em unidades
arbitrárias e mudanças relativas entre grupos experimentais e de
controle.

As vantagens desse método são:

» simples;

» alta especificidade;

» baixo custo;

» sequências de homologia parcial podem ser usadas como sondas;

» consegue detectar o tamanho do RNA;

» consegue verificar a quantidade e qualidade do RNA;

» blobts podem ser guardados por muitos anos.

As desvantagens desse método são:

» risco de degradação da amostra durante a eletroforese;

» exposição à radioatividade e formaldeído;

» sensibilidade baixa comparada aos outros métodos;

» difícil detecção com muitas sondas.

36
Análise transcriptômica | Unidade II

Figura 14. Etapas Northern blot.

Amostra

Extração RNA

Eletroforese

Separação RNA
por tamanho Sondas marcadas
Visualização do
RNA por raio-X.

Northern Blotting
Transferência do RNA
para a membrana

Fonte: https://www.wikiwand.com/en/Northern_blot.

Assim como o Northern bot, o microarranjo é um método oriundo do Southern


blot que consiste na análise da expressão gênica por meio de hibridização,
sendo possível analisar diferentes genes de uma mesma célula ou tecido ao
mesmo tempo.

Esse método também é conhecido como DNA chip e consiste em um arranjo de


moléculas de DNA predefinido quimicamente, ligadas a uma lâmina de vidro
ou de silicone revestida com poliacrilamida ou polilisina ou aminossilanos e
outros.

Os microarranjos também podem ser preparados em membranas de nylon que,


quando apresentam uma resolução mais grosseira frente ao microarranjo em
vidro, são denominados macroarranjos.

Logo, ocorre uma hibridização entre uma sonda (cDNA) e uma molécula-alvo
marcada com fluoróforo. Essa sonda possui sequências complementares às
moléculas-alvo, correspondendo a uma parte específica do gene, as quais são

37
Unidade II | Análise transcriptômica

fixadas em uma superfície sólida por meio da utilização de agulhas robotizadas,


fotolitografadas ou por impressão a jato.

Etapas do microarranjo (figura 15).

» Extração do RNA Total e RNA Mensageiro = os métodos para o


isolamento do RNA total ou RNA mensageiro baseiam-se na lise e
desnaturação das células que permitem a liberação dos ácidos nucleicos.
Atualmente, há vários reagentes comercialmente disponíveis, assim
como os kits de extração. Existem diferentes protocolos de extração
para os diferentes tecidos.

» Obtenção do cDNA = após extraído o RNAm, adiciona-se ao material


uma solução contendo enzima transcriptase reversa, primers,
nucleotídeos e fluoróforos para que ocorra a conversão do RNA em
cDNA. Para realizar essa reação, também é seguido um protocolo
específico.

» Hibridização = as moléculas de cDNA são distribuídas em uma placa


para se ligarem às sondas correspondentes por hibridização. Em
seguida, essa placa é lavada para eliminar o excesso que não se ligou.

» Análise dos Dados = um laser de alta resolução escaneia a placa,


fazendo a análise de acordo com a emissão da fluorescência.

As vantagens desse método são:

» possibilita a avaliação simultânea da expressão de milhares de genes


em diferentes tecidos de um organismo e em diferentes estágios de
desenvolvimento;

» podem ser usados para analisar qualquer tipo de variação na expressão


gênica entre amostras e para mover o foco dos estudos da análise e
da investigação de sistemas biológicos como um todo;

» podem ser utilizados perfis de expressão gênica para discriminar


entre dois tipos celulares ou duas condições biológicas distintas;

» os genes estudados também podem ser agrupados em uma classe


existente de genes, ou em uma nova classe gênica.

38
Análise transcriptômica | Unidade II

As desvantagens desse método são:

» é necessário um grande número de sondas específicas por experimento;

» envolve uma série de procedimentos laboratoriais de alta complexidade,


o que exige profissionais altamente qualificados e capacitados;

» são considerados experimentos caros e trabalhosos conduzidos com


tamanhos amostrais pequenos.

Figura 15. Etapas do microarranjo.

Célula Célula
Normal Amostras
Alterada

Ausente

Presente em
ambas células
mRNA RNA Isolado mRNA

Presente células
normais
cDNA Transcrição cDNA
Presente células
reversa e
alteradas
Identificaçã
o
Fluoróforo Verde Fluoróforo Vermelho

Leitura

Hibridização

Fonte: https://www.fetalmed.net/o-uso-do-microarranjo-de-dna-em-medicina-fetal.

Outro método utilizado para quantificar transcritos tem ganhado notoriedade


nas últimas décadas, o chamado PCR Quantitativo em Tempo Real (qRT-PCR
ou qPCR). Esse método permite investigação de múltiplos transcritos
simultaneamente, e equipamentos robustos possibilitam uma automatização
na realização dos ensaios envolvendo essa técnica.

É uma variante da reação de PCR convencional que consegue quantificar a


expressão gênica de determinado tecido ou célula em determinado estado
fisiológico ao qual está submetido.

39
Unidade II | Análise transcriptômica

Nesse caso, a amostra a ser analisada é um DNA complementar (cDNA)


resultante da transcrição reversa do RNA extraído do tecido ou célula em
estudo, o qual foi submetido à determinada condição fisiológica.
Então, após extração do RNA e síntese do cDNA, adiciona-se tampão, primers
(fragmentos curtos de DNA de fita simples, complementares à sequência de
interesse), dNTPs (nucleotídeos livres) marcados com fluoróforos, enzima
DNA polymerase e água.
Em seguida, essa mistura contendo todos esses componentes é colocada no
termociclador (aparelho em que ocorre a PCR), por onde passará por vários
ciclos. Em cada ciclo ocorrem três etapas:
» desnaturação = aumento da temperatura e separação das fitas do
cDNA;
» anelamento = diminuição da temperatura e anelamento dos primers
na sequência-alvo;
» síntese = atividade da enzima DNA polimerase reconhecendo os
primers e sintetizando nova fita.
Denomina-se tempo real porque cada vez que um nucleotídeo é adicionado a
nova fita é emitida uma fluorescência, a qual é detectada pelo sensor emitindo
cor e criando uma curva de amplificação (figura 16).

Figura 16. Curvas de amplificação qPCR.

Amplificação

8000

7000

6000

5000

4000

3000

2000

1000

0 10 20 30 40
Ciclos

Fonte: https://slides.com/lpmor22/qpcr/fullscreen.

40
Análise transcriptômica | Unidade II

Os métodos mais comuns de detecção utilizado no qPCR são os corantes


fluorescentes e as sondas específicas. Dentre os corantes, o mais utilizado é
o SYBR Green que intercala ao longo de toda a molécula do cDNA emitindo
fluorescência, assim, quanto maior a quantidade de cDNA de fita dupla em
solução, maior o sinal fluorescente.

O SYBR Green é não específico, de modo que pode se ligar a qualquer sequência
de DNA de fita dupla.

Dentre as sondas específicas, a mais conhecida e utilizada é a TaqMan. A


sonda é um curto oligonucleotídeo de fita simples específico que se liga ao
fragmento de interesse, o qual possui em sua extremidade 5’ um fluoróforo
repórter e um quencher em sua extremidade 3’, o qual impede a emissão de
luz pelo repórter quando a sonda está intacta.

Durante a fase de amplificação, a sonda se liga na região de interesse, o repórter


e o quencher são separados e o sinal fluorescente é emitido (figura 17).

Figura 17. Métodos de detecção utilizados durante as fases de desnaturação, anelamento e extensão no PCR Quantitativo em
Tempo Real.

SYBR Green TaqMan


Sonda
Primer Primer R
Q
Desnaturação

R
Q
Anelamento

R Q

Extensão

Polimerase R Repórter Q Quencher

Fonte: Cao et al., 2020.

Com a utilização desse método, pode-se realizar dois tipos de ensaios: os


ensaios de quantificação absoluta e os ensaios de quantificação relativa. O
primeiro, é utilizado para determinar o número exato de cópias (moléculas)
de DNA ou RNA de um determinado patógeno em uma amostra doente.

41
Unidade II | Análise transcriptômica

No entanto, a quantificação relativa é utilizada para analisar as alterações


na expressão gênica de determinada amostra relativa à outra amostra de
referência (controle não tratado), ou seja, é o ensaio utilizado nas análises
de transcriptomas.

Nesse ensaio, tem-se a presença do gene-alvo (gene de interesse) e do gene


endógeno (que apresenta expressão gênica estável sob diferentes situações) e
a utilização de dois métodos matemáticos já calculados pela própria máquina,
para a melhor obtenção dos resultados: método da curva padrão que vai
otimizar e validar melhor os resultados. A máquina calcula e calibra qual a
melhor curva para a amostra. E o método do CT Comparativo que garante
uma eficiência das amplificações entre 90 a 100%. Esse método aumenta o
rendimento da reação e elimina erro de diluição das amostras. Ele compara os
valores de CT de cada amostra com o gene endógeno (gene controle) fazendo
uma normalização dos dados.

O estudo da expressão gênica tem demonstrado ser uma importante ferramenta


no entendimento dos processos biológicos no âmbito molecular. Para o
entendimento da função de um gene, é fundamental o estudo de onde e quando
ele é expresso.

Recentemente, foram desenvolvidas várias estratégias de estudo da função de


vários genes simultaneamente que, associadas aos estudos de sequenciamento de
genomas inteiros de vários organismos, têm possibilitado o estudo sistemático
da expressão diferencial dos genes em um genoma como um todo.

Os ESTs são uma metodologia complementar de identificação de novos genes


e criação de catálogos gênicos. Eles correspondem a sequências curtas de DNA
produzidas a partir de clones de cDNA escolhidos aleatoriamente e sequenciados
uma única vez (Gautheret et al., 1998). Além de permitir a comparação de
similaridades de sequências a genes já conhecidos, sugerindo assim a sua
função (Matthews et al., 2001). Em outras palavras, as ESTs correspondem a
pedaços de genes expressos em uma determinada situação, derivados dos RNAs
mensageiros, que são utilizados na análise de transcriptomas de organismos.

As ESTs são obtidas por meio da transcrição reversa de um conjunto de mRNAs


expressos numa célula, produzindo as fitas de DNA complementar (cDNA).
Após esse procedimento, utiliza-se uma RNAse H para digerir as sequências
de RNA inicial e é produzida a segunda fita de DNA, gerando a molécula de
cDNA fita dupla.

42
Análise transcriptômica | Unidade II

Essa molécula é normalmente ligada em vetores de clonagem (como plasmídeos),


e são utilizados iniciadores para o sequenciamento das extremidades 5’ ou 3’
do cDNA em apenas uma “rodada” de sequenciamento. As sequências obtidas
são as chamadas ESTs (figura 18).

Figura 18. Produção de ESTs.

DNA Genômico Gene A

Transcrição

Purificação do mRNA

Transcrição
Reversa
Produção da primeira
fita de cDNA

Produção da
segunda
Amplifição com fita de cDNA
primers arbitrários

Clonagem

Sequenciamento

ESTs

Fonte: Prosdocimi, 2007.

Etapas do sequenciamento de bibliotecas de cDNA (ESTs = Expressed Sequence Tags):

» extração do RNA Total ou RNA Mensageiro = os métodos para o


isolamento do RNA total ou RNA mensageiro baseiam-se na lise e
desnaturação das células que permitem a liberação dos ácidos nucleicos.
Atualmente, há vários reagentes comercialmente disponíveis, assim
como kits de extração. Existem diferentes protocolos de extração
para os diferentes tecidos;
43
Unidade II | Análise transcriptômica

» extração do RNA poli A = após extraído o RNA total, deve ser


retirado o RNA poli A. Para essa etapa, também se utiliza kits de
extração, seguindo as orientações do fabricante;

» construção das bibliotecas de cDNA = geralmente são geradas duas


bibliotecas: as com amostras sadias e as com amostras doentes ou
infectadas. As bibliotecas são criadas também utilizando kits para
a construção de bibliotecas de cDNA, seguindo as instruções do
fabricante;

» sequenciamento dos ESTs = é realizado em um sequenciador e seus


kits de sequenciamento;

» análise computacional dos ESTs = após o sequenciamento dos ESTs,


é preciso analisar a qualidade por meio da bioinformática. São feitas
algumas análises, como controle de qualidade, comparação com as
ESTs já depositadas em bancos de dados, similaridade etc.

O SAGE (Serial Analysis of Gene Expression) é outra técnica também usada


para analisar, de maneira rápida e detalhada, a expressão de milhares de genes
transcritos simultaneamente.

É amplamente utilizada para caracterizar transcriptomas de organismos inteiros


ou parte dele, como também para estudar as diferenças entre tecidos sadios
e doentes ou infectados ou anormais e para comparar o perfil da expressão
entre os diferentes tecidos.

Essa metodologia foi descrita pela primeira vez por Velculescu et al. (1995)
e apresenta dois princípios: etiqueta ou tag e a concatenação. No primeiro,
a informação para identificar um único transcrito está na pequena sequência
nucleotídica (etiqueta ou tag). No segundo, a concatenação dessas pequenas
tags permite análise eficiente de transcritos de uma forma em série pelo
sequenciamento de múltiplas tags em um único clone.

Ao longo do tempo, com o desenvolvimento das tecnologias, sofreu numerosas


melhorias, como a produção de tags maiores, o que melhora a especificidade do
tag ao gene mapeado, modificações para facilitar a construção das bibliotecas
utilizando menor quantidade de amostra (RNA total), aplicação de digestão
parcial das enzimas para melhorar a eficiência da técnica.

44
Análise transcriptômica | Unidade II

Algumas vantagens que essa técnica apresenta em relação as outras é que


não precisa conhecimento prévio dos genes de interesse a serem analisados,
gera dados quantitativos e qualitativos, identificação de transcritos em baixa
abundância detecção de pequenas diferenças na abundância de transcritos
entre as células.

A sua desvantagem é que muitos genes apresentam fragmentos internos comuns


e, muitas vezes, fica difícil saber ao certo qual gene foi expresso quando se
observa uma etiqueta de SAGE muito comum em diferentes genes.

Na metodologia RNA deep sequencing ou RNA-Seq é possível estudar o perfil


do transcriptoma com maior precisão por meio do sequenciamento em larga
escala de bibliotecas de cDNA.

É muito usada nos estudos de interação planta-patógeno, pois consegue


monitorar com precisão a expressão do conjunto genes da planta e do patógeno
quando eles estão em interação.

Além disso, a técnica permite sequenciar o transcriptoma de um pequeno


número de células no local inicial da infecção (KIM et al., 2011; WESTERMANN
et al., 2012; CHEN et al., 2015).

Essa técnica consiste em converter o RNA em uma biblioteca de fragmentos


de cDNA com adaptadores ligados em ambas extremidades. Cada fragmento
é então sequenciado para obter sequências curtas (reads) de uma extremidade
(single-end) ou de ambas extremidades (pair-end). Os dados brutos gerados
são classificados de acordo com a sua qualidade avaliada por programas de
bioinformática.

No início, as tecnologias de sequenciamento mais utilizadas eram Illumina e


Roche 454 system. Atualmente, a plataforma Illumina tem sido a mais utilizada,
uma vez que a plataforma Roche não é mais comercializada.

A geração de dados de RNA-Seq é um processo em constante evolução, que


inclui o desenvolvimento da tecnologia de sequenciamento e o desenvolvimento
de algoritmos para análise dos dados (HAN et al., 2015).

Algumas vantagens dessa técnica são: maior sensibilidade para as regiões de


baixa e alta expressão gênica, minimização de erros causados por ambiguidades

45
Unidade II | Análise transcriptômica

dos reads mapeados com o genoma de referência, identificação de transcritos


sem necessidade de conhecimento prévio do genoma, descoberta de novos
transcritos.

Essa tecnologia também pode ser empregada para medir a abundância de


transcritos, identificar regiões não traduzidas, variantes de splicing, e identificar
polimorfismos de uma única base (SNPs).

46
CAPÍTULO 3
Métodos para analisar os resultados da
expressão gênica

Existe uma série de métodos estatísticos para analisar dados de transcriptoma.


Os mais apresentados em trabalhos científicos serão comentados a seguir.

Em se tratando da técnica de micro ou macroarranjos, em que o princípio


é a detecção e quantificação de ácidos nucleicos provenientes de amostras
biológicas, as quais são colocadas para hibridizar, por complementariedade
entre as bases nitrogenadas, com o oligonucleotídeo fixado na membrana ou
no chip, essa detecção somente ocorre porque são geradas sondas – as quais
são marcadas com fluorocromos que podem ser a cianina 3 (Cy3), cianina 5
(Cy5), isótopo 33-P.

Após a detecção, ocorre a geração da imagem, que é obtida por meio de


leitores a laser ou de fósforo. Os spots que contêm amostras marcadas com
o fluoróforo Cy3 devem aparecer na imagem como círculos verdes intensos,
aqueles com amostras marcadas com o fluoróforo Cy5 que aparecem como
círculos vermelhos. No caso de quantidades iguais dos dois corantes, os círculos
devem aparecer amarelos.

Nas últimas décadas, começou a ser comum a comercialização de chips de


cDNA, contendo controles positivos e controles negativos. Assim, quando um
RNAm específico estiver presente na amostra, um sinal será obtido no ensaio,
e se o RNAm estiver ausente, então haverá ausência na sonda e nenhum sinal
será obtido (figura 19).

Figura 19. Detecção e análise de chips de cDNA de micro e macroarranjo.

Genes expressos
diferecialmente
negativo
Controle

Genes expressos mais


em uma condição
Réplica

Genes expressos mais


em uma condição
Controle
positivo

Genes expressos
igualmente em ambas as
condições

Fonte: Moreira et al., 2015.

47
Unidade II | Análise transcriptômica

Mais recentemente, foi desenvolvido o GeneChip, um oligo-microarranjo que


utiliza a tecnologia de síntese in situ. Os oligonucleotídeos são sintetizados no
próprio chip, onde cada ponto representa um segmento gênico. Ou seja, quanto
mais pontos houver no microarranjo, mais abrangente será a análise (figura 20).

Figura 20. GeneChip.

cDNA
Marcado Hibridação

Milhões de cópias de uma


mesma sonda em fita
simples
AFFYMATRIX

1,28cm

> 400.000 sondas

Fonte: Moreira et al., 2015.

Desde a invenção dessa tecnologia, vários métodos de processamento de


imagens, modelos estatísticos e técnicas de mineração de dados específicos
para análise de microarranjos de DNA foram desenvolvidos.

Essa análise faz parte de um fluxo de dados comum durante o processamento


de imagens de microarranjos, que inclui: alinhamento da grade, segmentação
dos spots, avaliação da qualidade, quantificação e normalização dos dados,
identificação dos genes diferencialmente expressos e mineração dos dados.

A varredura a laser do microchip gera arquivos com 16 bites para cada canal de
cor RGB em formato TIFF (Tagded Image Format File) que contém informações
das florescências detectadas durante a excitação pelo laser.

Os valores de fluorescência detectados após a amplificação e conversão de


analógico-digital devem ficar dentro do intervalo [0, 65.535] (2^16-1 = 65.535).

48
Análise transcriptômica | Unidade II

Outro formato utilizado para representar imagens de microarrajos é o JPG.


Ele ocupa menos espaço que o TIFF, mas, além de possuir menor qualidade,
utiliza algoritmos de compressão que levam à perda de dados.
O passo principal para a análise de dados de microarranjos é a extração da
intensidade de cada spot que representa os níveis de expressão gênica. Desse
modo, são obtidas conclusões biológicas baseadas nos resultados da mineração
de dados e análise estatística de todas as características extraídas.
Como as ESTs representam o genoma expresso em uma célula num determinado
momento, é comum haver redundância gênica dessa moléculas. Isso acontece
porque uma célula pode precisar muito da presença de algum gene num
determinado momento e, nesse caso, ela irá produzir uma grande quantidade
de moléculas de mRNA do gene em questão. Para evitar isso, é preciso ser
feito o agrupamento ou clusterização de ESTs, utilizando o PHRAP.
Nesse processo de clusterização, as moléculas formadas não são muito grandes,
apresentando um tamanho de dois mil pares de bases. E os genes não apresentam
regiões de sobreposição com outro gene, de forma que cada um dos genes é
montado separadamente.
No processo de análise dessa metodologia, ocorre a comparação dessas
sequências clusterizadas entre si, com o objetivo de encontrar quais delas
são idênticas ou quais contêm regiões parecidas o suficiente para que sejam
reunidas em uma só.
Assim, o programa apresenta uma saída contendo as sequências que foram
agrupadas, chamadas de contigs, e as sequências que não foram agrupadas,
chamadas de singlets. Sendo cada uma dessas chamadas de unique, que
corresponde ao conjunto de moléculas não redundantes (figura 21).
Figura 21. Clusterização de sequências ESTs.

U
Contig2 N
Contig1 I
Q
U
Singlet2 E
Agrupamento
Singlet1 S
Singlet4
Singlet3
Sequências de ESTs
Fonte: Prosdocimi, 2007.

A geração de dados utilizando a metodologia de RNA-Seq inclui o desenvolvimento


da tecnologia de sequenciamento e o desenvolvimento de algoritmos para a
análise dos dados.

49
Unidade II | Análise transcriptômica

Então, logo após o sequenciamento, os reads gerados são submetidos a análises


de bioinformática para a identificação e quantificação do transcriptoma.
Dessa maneira, as etapas, resumidamente, da análise de dados oriundos dessa
metodologia consistem em:
» avaliar a qualidade dos reads e remover as sequências contaminadas;
O processo de sequenciamento pode conter erros originados pela presença
de contaminantes que afeta a qualidade dos resultados ou simplesmente erro
de sequenciamento.
Portanto, nessa fase, são removidos os fragmentos com baixa qualidade,
sequências contaminadas com primers, vetores, adaptadores e sequências
longas com bases repetidas.
Diferentes ferramentas estão disponíveis para essa finalidade e permitem
visualizar a qualidade dos reads graficamente. Uma delas é o software FastQC.
» mapear os reads e montar o transcriptoma usando um genoma de referência
ou de novo;
Nessa etapa ocorre o mapeamento do conjunto de reads contra um genoma de
referência ou utiliza-se uma estratégia chamada de montagem de novo, quando
não existe um organismo próximo completamente sequenciado (figura 22).
Figura 22. Pipeline para a montagem do transcriptoma.

Dados brutos (reads)


Trim reads (qualidade) e
filtragem por
comprimento

Limpeza dos dados

Genoma de referência disponível

SIM NÃO

Montagem do Montagem do
transcriptoma baseado transcriptoma
na referência De novo

Alinhamento dos reads ao Identificação de K-mers


genoma a partir dos reads e
posterior construção de
grafos de Brujin
Construção de grafos

Montagem dos
transcritos
Montagem dos
transcritos

Anotação

Fonte: Martin; Wang, 2011.

50
Análise transcriptômica | Unidade II

Quando existe um genoma de referência sequenciado de boa qualidade, utiliza-se


a estratégia de alinhar o conjunto de reads contra esse genoma.
Essa estratégia é altamente sensível e tem se tornado um método básico usado
em muitos estudos de sequenciamento de RNA.
No entanto, a precisão da montagem do transcriptoma baseado em um genoma
de referência depende de um correto alinhamento dos reads.
E é preciso buscar a sobreposição do conjunto de reads alinhados com a
construção de grafos até obter os transcritos.
Existem diferentes softwares que podem ser utilizados para fazer esse
alinhamento, por exemplo, Tophat, SpliceMap, MapSplice, Bowtie e Blat.
Para realizar a montagem de novo, a estratégia utilizada envolve a construção de
grafos de Brujin, em que cada grafo é criado a partir de k-mers (comprimento
de subsequências encontradas nos reads).
Uma subcadeia de k-mers é deslocada por uma base de sequência, e ela se
sobrepõe a outro k-mer. Finalmente uma cadeia linear k-mers é construída
para obter os transcritos (figura 23). Os softwares mais utilizados nessa
montagem são: Oases, Trans-ABySS, SOAPdenovo-Trans e Trinity.

Figura 23. Construção de grafos de Brujin.

Read

GTAAGTC GTAAGAG

GTAAG GTAAG

TAAGT TAAGA K-mers


(tamanho 5)
AACGC AAGAG

TAAGT AAGTC
GTAAG Brujin Grafo

TAAGA AAGAG

GTAAGTAAGT GTAAGTAAGA

AAGTC AAGAG

GTAAGTAAGTC GTAAGTAAGAG Transcritos


Montados
Fonte: Moreton et al., 2016.

51
Unidade II | Análise transcriptômica

» indexar e avaliar a abundância dos reads;

Essa etapa é crucial e tem grande impacto na detecção de genes diferencialmente


expressos. Também conhecida como normalização, é nessa etapa que ocorre
a correção das diferenças entre as amostras na contagem dos reads.

Várias estratégias são utilizadas, como a profundidade de sequenciamento e


comprimento do gene.

» identificar os genes diferencialmente expressos;

Nessa etapa é possível identificar mudanças no nível de expressão de um


conjunto de genes em diferentes condições. O objetivo é comparar os níveis
de expressão entre duas condições, por exemplo, selvagem e mutante.

Desenhos experimentais mais complexos podem incluir fatores adicionais,


potencialmente com vários níveis (por exemplo, vários mutantes). Um
componente crucial dessa análise é o método estatístico utilizado para identificar
os genes diferencialmente expressos.

As ferramentas que podem ser utilizadas para quantificar a expressão diferencial


dos genes são: Cufflinks, DESeq2 e EdgeR.

» anotação e categorização functional dos genes identificados;

Essa etapa se caracteriza pela busca de informação sobre os transcritos obtidos


na fase de mapeamento, para, assim, poder extrair seu significado biológico
visando a compreensão dos processos biológicos.

As abordagens utilizadas aqui se baseiam em homologia para identificar


sequências relacionadas de função conhecida e, portanto, transferem essa
anotação para o novo transcrito.

Algumas ferramentas utilizadas para desenvolver esse processo são: Pfam,


Interpro e Gene Ontology.

Seja qual for a metodologia empregada nos estudos de transcriptoma, além


das particularidades de análises em cada uma, pode-se ainda utilizar análises
baseadas em diagrama de Venn, heat map ou K-means.

O diagrama de Venn caracteriza-se por ser pouco informativo, uma vez que destaca
apenas o total de genes induzidos ou reprimidos em cada condição analisada. No
entanto, é muito utilizado em estudos de investigação em larga escala.

52
Análise transcriptômica | Unidade II

Apresenta interface simples e de fácil confecção e compreensão (figura 24).


Figura 24. Representação da expressão diferencial de genes por meio do Diagrama de Venn.

Condição A Condição A

105 74

21 15 15 17
13 11

10 4
93 72 87 30

Condição C Condição B Condição C Condição B

INDUZIDOS REPRIMIDOS

Fonte: Moreira et al., 2015.

O heat map, também conhecido como mapas de intensidade, considera todas


as condições analisadas e gera um dendrograma associado a esse perfil de
expressão que facilita a compreensão sobre o quão parecido são esses perfis de
expressão gênica. Ou seja, esse método de análise do transcriptoma agrupa os
genes de acordo com o seu perfil de expressão ao longo do tempo, em diferentes
condições de experimentação ou entre diferentes células de organismos
submetidos a uma mesma condição fisiológica (figura 25).
Figura 25. Representação da expressão diferencial de genes usando heat map.
Agrupamento das condições/modelos de acordo
Repressão com o perfil de expressão

Expressão
Agrupamento dos genes de acordo com o perfil de

Genes analisados
expressão

Condições/Modelos avaliados

Fonte: Moreira et al., 2015.

53
Unidade II | Análise transcriptômica

As análises de expressão gênica por k-means apresenta um potencial muito


grande para agrupar genes tidos como hipotéticos (sem função biológica
conhecida) a outros de funções já estabelecidas, permitindo especular que
o perfil de expressão destes genes hipotéticos acompanha o de outros com
função biológica já descrita.

Assim como o heat map, agrupa genes com o mesmo perfil de expressão, porém
não demonstra se um gene foi mais ou menos induzido do que outro porque
o seu objetivo é analisar o perfil de expressão apresentado pelo conjunto
gênico (figura 26).

Figura 26. Representação da expressão diferencial de genes usando k-means.

Fonte: Moreira et al., 2015.

54
O QUE É
METABOLÔMICA? UNIDADE III

CAPÍTULO 1
Introdução

As ciências ômicas buscam o entendimento do funcionamento celular dos


organismos e suas alterações biológicas. Fazem parte deste conjunto de ciências
a genômica (estudo da alteração dos genes), a transcriptômica (estudo das
alterações dos transcritos), a proteômica (estudo das alterações das proteínas)
e a metabolômica (estudo das alterações dos metabólitos) (figura 27).

Figura 27. Relação entre as ciências “ômicas”.

GENOMA TRANSCRIPTOMA
O potencial RNA mensageiro (genes não lidos)

METABOLOMA PROTEOMA
Metabólitos resultantes de Proteínas e enzimas produzidas
função enzimática
Fonte: Moreira et al., 2015.

Existe uma divergência em relação às terminologias aplicadas às análises


metabolômicas/metabonômicas. O termo metaboloma refere-se ao conjunto
de todos os metabólitos de baixa massa molecular (até 1500 Da), presentes
ou alterados em um sistema biológico.

55
Unidade III | O que é metabolômica?

Já o termo metabonômica é a medida quantitativa da resposta metabólica de um


sistema biológico após estímulos fisiopatológicos ou modificações genéticas.
E a metabolômica corresponde à análise quantitativa do metaboloma de um
sistema biológico.

Entretanto, independentemente da definição adotada, todas possuem em


comum a resposta medida em âmbito molecular, que é obtida a partir de uma
visão integrada da bioquímica em organismos complexos.

E metabólitos são produtos intermediários ou finais do metabolismo em uma


amostra biológica. Um organismo contém uma gama de compostos, dentre
eles, íons, macromoléculas e micromoléculas.

São entendidas como metabólitos as micromoléculas orgânicas do sistema


biológico, os quais derivam da interação do genoma, do transcriptoma e do
proteoma com o meio ambiente, originando o seu fenótipo.

O objetivo dessa ciência é estudar o conjunto desses metabólitos. Trata-se


de mais uma área de estudo que tem como as outras ômicas o objetivo de
aumentar a nossa compreensão e possivelmente de controlar o metabolismo.

Assim, o estudo extensivo do metaboloma de um organismo leva à identificação


e quantificação do conjunto de seus metabólitos. No entanto, diferentemente das
outras ômicas, ainda não há uma técnica única capaz de analisar a diversidade
molecular dos metabólitos do metaboloma.

Na prática, muitos estudos de metabolômica analisam apenas uma parte


do metaboloma, sendo que para algumas delas já foram propostos nomes
específicos como glicômica, lipidômica e peptidômica.

A metabolômica tem como objetivo a análise de uma ampla gama de compostos,


sem que haja necessidade de composto(s)-alvo específico(s). Muitos estudos
em metabolômica visam identificar, dentro desse amplo espectro, aqueles
compostos que podem caracterizar determinado estado metabólico.

Desse modo, pode ser detectada rapidamente qualquer alteração no metabolismo.


Usando essa estratégia, já foram identificadas alterações no perfil metabólico
características para diversas patologias humanas, como cânceres, doenças
cardíacas e diabetes.

56
O que é metabolômica? | Unidade III

Estudos como esses apontam para compostos que possam servir para diagnosticar
e monitorar essas doenças bem como para as vias metabólicas alteradas pela
patologia.

A metabolômica também é utilizada para o monitoramento do metabolismo


de organismos geneticamente modificados. Ists é particularmente importante
para avaliar os efeitos da modificação sobre o metabolismo e por consequência
a segurança do consumo desses organismos.

No entanto, devido à complexidade da rede metabólica, incluindo a sua


regulação, nem sempre são obtidas as modificações almejadas, sendo acumulados
pela planta compostos diferentes daqueles desejados.

Por isso, procedimentos de segurança são necessários e adotados para avaliar


se esses organismos são próprios para o consume ou não.

Ultimamente, os alimentos funcionais têm ganhado uma importância maior.


O consumo de alimentos de origem vegetal contendo compostos como
fitoestrogênios, que atuam no balanço hormonal, ou flavonoides, que podem
atuar como antioxidantes, levam a perceptíveis decréscimos de certas patologias
em populações que tradicionalmente incluem maiores quantidades desses
alimentos em suas dietas.

Isso acontece porque esses compostos atuam na manutenção da homeostase


metabólica. Esses compostos fazem parte do grupo de compostos classificados
como metabólitos secundários e são encontrados em concentrações
relativamente baixas nas plantas. Muitos estudos de metabolômica visam
verificar quantitativamente e qualitativamente esses compostos para aumentar
assim a qualidade dos produtos.

A metabolômica é assunto de estudo recente e, apesar de grandes avanços, as


técnicas ainda estão em desenvolvimento. Ainda não há uma única técnica que
possa ser aplicada para o estudo extensivo do metaboloma de um organismo
e, portanto, várias técnicas complementares devem ser utilizadas para uma
visão mais completa.

Outro aspecto em desenvolvimento é a análise dos dados obtidos, já que a


metabolômica, como as outras “ômicas”, gera uma quantidade enorme de dados

57
Unidade III | O que é metabolômica?

a serem trabalhados. Assim, há a necessidade de automatizar ao máximo a


análise dos dados para detectar as diferenças entre conjuntos de cromatogramas
e/ou espectros.

Isso exige a comparação dos dados utilizando a análise multivariada. A


automação da identificação de compostos com bancos de dados públicos ainda
esbarra em dificuldades, como diferenças de condições de análises. É certo,
no entanto, que essas dificuldades serão superadas em um futuro próximo.

58
CAPÍTULO 2
Principais metabólitos

Metabólitos resultam de diferentes vias metabólicas, por isso existe uma


enorme variedade estrutural nas células, além de grande variedade química e
física e diferentes concentrações no organismo.

Quando comparados às moléculas de DNA e proteínas, são conhecidos como


micromoléculas devido ao seu baixo peso molecular.

Os metábolitos são classificados em metabólitos primários e metabólitos


secundários (figura 28). Os metabólitos primários fazem parte das vias
anabólicas e catabólicas comuns a muitos organismos e, apesar disso, são muito
diferentes quanto à sua estrutura, pois não são simples polímeros lineares de
unidades repetitivas como as proteínas ou os ácidos nucleicos.

As análises desses metabólitos são úteis para detectar distúrbios no metabolismo


e entender melhor algumas patologias. Em um exame de sangue, por exemplo,
ocorre a comparação de concentração de metabólitos, como glicose, colesterol,
triglicerídeos e ácido úrico, no sangue do paciente com os valores normalmente
encontrados na população, auxiliando o médico a estabelecer o diagnóstico.
Fica claro então que o nível de certos metabólitos reflete o estado metabólico
do organismo.

Os metabólitos secundários derivam do metabolismo primário. São compostos


formados a partir de vias biossintéticas de distribuição relativamente restrita
que atuam na interação do organismo com o ambiente, por exemplo, compostos
de defesa química (antioxidantes), compostos de defesa física (proteção contra
radiação) e compostos de defesa biológica (proteção contra predação ou
patógenos).

As análises desses compostos e dos intermediários de sua via biossintética


permite entender melhor a regulação de sua biossíntese e como consequência
auxilia o processo de obtenção desses produtos.

Esse termo secundário é usado para as vias metabólicas específicas de diferentes


organismos, como bactérias, fungos e plantas. Os alcaloides são exemplos de
metabólitos secundários produzidos pelas plantas e microrganismos.

59
Unidade III | O que é metabolômica?

A biossíntese desses compostos está restrita a algumas famílias de angiospermas.


Muitos medicamentos são metabólitos secundários extraídos de plantas ou
microrganismos que, pela complexidade estrutural, não podem ser obtidos
via síntese em laboratório de maneira economicamente viável.

Figura 28. Classes de metabólitos.

Fenilpropanoides

Alcaloides Isoprenoides
Peptídeos

Açúcares Aminoácidos

Ácidos Orgânicos

METABOLISMO PRIMÁRIO

Ácidos Graxos Esteroides

Policetídeos
Iridoides Flavonoides

Fonte: Moreira et al., 2015.

A seguir, serão discutidas diferentes classes de compostos, suas propriedades


e sua relevância na metabolômica.

Alcaloides
São compostos naturais que normalmente contêm átomos de nitrogênio na
forma básica, dentro uma estrutura cíclica (figura 29).

Representam um grande grupo de metabólitos secundários e biologicamente


ativos de plantas medicinais, por exemplo, cafeína, morfina, cocaína, atropina,
quinina, estricnina e nicotina.

Devido ao caráter básico dos alcaloides, extratos específicos desses compostos


podem ser obtidos com extração ácido-base.
60
O que é metabolômica? | Unidade III

Figura 29. Estrutura molecular dos alcaloides.

Triptamina Retronecina L-Hiosciamina

Ajmalicina Quinina
Fonte: Moreira et al., 2015.

Ácidos orgânicos
São compostos majoritários em extratos polares de qualquer tipo de organismo.
Os ácidos carboxílicos, intermediários de muitas reações bioquímicas, como
no ciclo de Krebs, são exemplos de ácidos orgânicos.

Os ácidos orgânicos mais comuns são: ácido acético, ácido cítrico, ácido
fórmico, ácido láctico, ácido oxálico (figura 30).

Figura 30. Estrutura molecular dos ácidos orgânicos.

Ácido Cítrico L-Ácido Lático

Ácido Acético Ácido Fórmico Ácido Oxálico


Fonte: Moreira et al., 2015.

61
Unidade III | O que é metabolômica?

Ácidos graxos
Ácidos graxos são importantes fontes de energia metabólica e são normalmente
estocados na forma de triglicerídeos, ésteres formados a partir da reação de
glicerol com três moléculas de ácido graxo.

A biossíntese de ácidos graxos ocorre em todos os seres vivos pela via do


acetato-malonato, pois estes são componentes essenciais das membranas
celulares.

Os ácidos graxos diferem entre si quanto ao comprimento da cadeia de carbonos


e o número, a posição e a configuração das suas insaturações (figura 31).

Os ácidos graxos mais comuns contêm número par de carbono e, quando


presentes, insaturações de configuração cis.

Figura 31. Estrutura molecular dos ácidos graxos.

Ácido Butírico Ácido Palmítico

Ácido Esteárico

Ácido Oleico Ácido Linoleico

Fonte: Moreira et al., 2015.

As gorduras de animais e muitos óleos vegetais, como azeite de oliva e óleo


de soja, contêm quase que exclusivamente triglicerídeos. Além dos compostos
que podem estar presentes em grandes quantidades nas células ou tecidos,
como os citados acima, são encontrados derivados de ácidos graxos, dentre
os quais muitos hormônios tanto animais quanto vegetais. Exemplos são
as prostaglandinas (derivadas do ácido araquidônico) e o ácido jasmônico
(derivado de ácido-linolênico).

62
O que é metabolômica? | Unidade III

Ácidos graxos de cadeia longa e triglicerídeos são apolares e, portanto,


praticamente insolúveis em água. Extratos de tecidos feitos com solventes
apolares como clorofórmio e hexano contêm, quase que exclusivamente,
ácidos graxos e/ou triglicerídeos.

Ácidos graxos em conjunto com os terpenoides são classificados como lipídeos.


Há uma subdivisão da metabolômica interessada em caracterizar especificamente
essas moléculas: a chamada lipidômica.

Esses dois grupos de metabólitos apresentam em comum baixa polaridade e,


portanto, são extraídos com solventes orgânicos apolares. Apesar de estarem
reunidos sob o termo lipídio, sua origem biossintética é distinta: os ácidos
graxos são formados pela via do acetato-malonato, enquanto que os terpenos
são formados a partir de unidades isoprênicas.

Aminoácidos
Todos os aminoácidos contêm um grupamento amino e outro carboxílico. Nos
aminoácidos típicos de proteínas, esses grupamentos estão ligados ao mesmo
átomo de carbono. A configuração do carbono quiral pode ser L ou D, sendo
que, nos aminoácidos típicos de proteínas, a configuração é sempre L.

De acordo com a estrutura das cadeias laterais, os aminoácidos são classificados


como polar ou apolar. No entanto, devido às suas propriedades anfotéricas,
os aminoácidos podem ser bem dissolvidos na água, sendo que a solubilidade
pode variar com mudanças de pH.

Aminoácidos livres estão presentes em muitos tecidos. Em plantas,


frequentemente altos níveis de certos aminoácidos podem ser encontrados.
Por exemplo, quando há alta disponibilidade de nitrogênio, a planta pode
estocar o excesso de N na forma de arginina, glutamina ou asparagina, todos
com a razão entre os números de N e C alta.

Há em todos os seres vivos polímeros de L-aminoácidos, as chamadas proteínas,


formadas pela combinação linear dessas moléculas nos ribossomos. São 20 os
aminoácidos normalmente encontrados em proteínas (figura 32).

63
Unidade III | O que é metabolômica?

Figura 32. Estrutura molecular dos aminoácidos.

Glicina Alanina Valina Isoleucina Leucina Fenilalanina

Tirosina Triptofano Lisina Arginina

Histidina Ácido Ácido Asparagina Glutamina


aspártico glutâmico

Cisteína Metionina Serina Treonina Prolina


Fonte: Moreira et al., 2015.

A proteômica tem como objetivo estudar vários aspectos do perfil proteico


dos organismos. Também são encontrados nos seres vivos polímeros mais
curtos desses aminoácidos, os peptídeos (até 50 unidades) e oligopeptídeos
(até 20 unidades), não sendo estes objetos de estudo da proteômica, devido
ao seu baixo peso molecular.

A peptidômica estuda estes peptídeos, que envolvem compostos com atividades


importantes, como hormônios (por exemplo: insulina, glucagona e calcitonina)
ou compostos antimicrobiais (como microcinas).

Alguns aminoácidos são também precursores para a biossíntese de outras


classes de compostos tanto do metabolismo primário quanto do secundário.
Podem ser mencionados os alcaloides indólicos e quinolínicos, derivados do
triptofano, os flavonoides e taninos (compostos fenólicos), derivados
de fenilalanina.

64
O que é metabolômica? | Unidade III

Peptídeos e oligopeptídeos podem conter os aminoácidos típicos de proteínas


e também outros aminoácidos, os chamados aminoácidos atípicos. Muitos
polímeros de aminoácidos não são formados via ribossomo.

Principalmente em microrganismos, vem crescendo o número de peptídeos


identificados que são formados por peptídeos sintetases não ribossomais.
Estes costumam conter aminoácidos atípicos ligados entre si, muitas vezes
por ligações peptídicas também atípicas, sendo necessária a identificação
rigorosa, inclusive da estereoquímica de cada aminoácido.

Açúcares
Também conhecidos como carboidratos, são encontrados em todos os seres
vivos. São importantes para estocagem de energia.

Apresentam quatro classes: monossacarídeos, dissacarídeos, oligossacarídeos


e polissacarídeos (figura 33).

Figura 33. Estrutura molecular dos carboidratos.

Mio-Inositol Alfa-D-galactopiranose Alfa-D-glicopiranose

Alfa-lactose Alfa-D-frutofuranose Beta-D-glicopiranose

Beta-lactose Beta-D-frutofuranose Sacarose

Fonte: Moreira et al., 2015.

Os monossacarídeos são os açúcares mais simples que podem ser aldoses


ou cetoses, contendo de três a sete carbonos, sendo a frutose, a glicose e a
galactose os encontrados mais frequentemente.

65
Unidade III | O que é metabolômica?

Os dissacarídeos mais conhecidos são a sacarose (dímero de frutose e glicose)


e a lactose (dímero de galactose e glicose).
A polimerização de glicose dá origem a diversos polissacarídeos que diferem
entre si por serem lineares ou não e pelo tipo de ligação glicosídica formada.
Plantas acumulam o polissacarídeo amido, enquanto animais acumulam
glicogênio para estocagem de energia.
Polissacarídeos também são componentes estruturais, como é o caso da celulose,
um dos componentes da parede celular de vegetais.
Os monossacarídeos, os dissacarídeos e os oligossacarídeos são solúveis em
água. Já os polissacarídeos frequentemente não são dissolvidos por solventes.
Muitas vezes, carboidratos fazem parte de moléculas mais complexas, de origem
biossintética mista, como é o caso das pentoses (ribose e desoxirribose), que
fazem parte da estrutura dos nucleotídeos em RNA e DNA, respectivamente.
No reino vegetal há muitos metabólitos secundários que ocorrem na forma de
glicosídeos, por exemplo, flavonoides ou iridoides. Uma das subdivisões da
metabolômica, a glicômica, se concentra na análise de todos os carboidratos
livres e ligados covalentemente a proteínas e lipídeos.

Terpenoides
São compostos do metabolismo primário, também conhecidos como terpenos. Os
esteroides colesterol e ergosterol são derivados de triterpenos tetracíclicos (figura 34).
Figura 34. Estrutura molecular dos terpenos.

Alfa-Amirina Beta-Amirina Lupeol

Colesterol Beta-Sitoesterol Ergosterol


Fonte: Moreira et al., 2015.

66
O que é metabolômica? | Unidade III

Apesar de serem estruturalmente muito diversos, todos esses compostos são


formados por uma sequência de reações que levam à junção linear de compostos
de cinco átomos de carbono (derivados de isopentenil pirofosfato).

A variedade estrutural do grupo é grande, pois, apesar de se tratar de unidades


isoprênicas ligadas entre si de forma linear, as possibilidades de ciclização e
modificações das moléculas são inúmeras.

Os terpenos são classificados de acordo com o número de unidades de cinco


carbonos que os compõem em hemiterpenos (5 C), monoterpenos (10 C),
sesquiterpenos (15 C), diterpenos (20 C), triterpenos (30 C).

Os monoterpenos formam um grupo grande que contém muitos


componentes voláteis dos óleos essenciais, como limoneno, carvacrol e
mentol (figura 35).

Figura 35. Estrutura molecular dos monoterpenos.

Geraniol

Eucaliptol

Limoneno Timol

Famesol
Caryophyllene

Fonte: Moreira et al., 2015.

Sesquiterpenos são também constituintes importantes de óleos essenciais.


Derivados oxigenados que têm atividades importantes, como lactonas
sesquiterpênicas, são encontrados em muitas plantas. Exemplos são artemisinina
(Artemisia annua) e lactucina da alface (Lactuca sativa) (figura 36).

Diterpenos e diterpenoides são comuns em diversas famílias de plantas, por


exemplo, paclitaxel (taxol), que é um derivado de diterpenos (figura 36).

67
Unidade III | O que é metabolômica?

Figura 36. Estrutura molecular dos sesquiterpenos e diterpenos.

Artemisina Paclitaxel (taxol)

Lactusina

Fonte: Moreira et al., 2015.

Os triterpenos lupeol e alfa e beta-amirina têm ampla distribuição no reino


vegetal (figura 34). Fazem parte do grupo de triterpenos modificados os
esteroides, conhecidos hormônios, tanto animais (testosterona) como vegetais
(brassinoesteroides).

Outro exemplo é o grupo de compostos chamados de vitamina D, formados


também a partir de triterpenos tetracíclicos.

Os tetraterpenos são representados pelos carotenoides. São encontrados em


altas concentrações na cenoura e também em alguns dos pigmentos das flores
e das penas de pássaros.

Os carotenoides obtidos na ingestão de alimentos podem ser modificados. Eles


são precursores de metabólitos, como é o caso do β-caroteno, que é modificado
e transformado em vitamina A pelo nosso metabolismo.

Já os terpenoides não oxigenados ou pouco oxigenados são compostos apolares


e podem ser extraídos com solventes como diclorometano. São comuns em
certas famílias de plantas iridoides.

São considerados importantes para defesa contra herbívoros ou microrganismos.


São monoterpenos que ocorrem na forma de glicosídeos. O iridoide secologanina
é um precursor dos alcaloides indólicos monoterpênicos.

68
O que é metabolômica? | Unidade III

Devido à polaridade dos glicosídeos, eles têm boa solubilidade em solventes


polares. Precauções especiais devem ser tomadas para a análise dos metabólitos
de baixo peso molecular, pois estes são voláteis e podem ser perdidos ao longo
do processo de preparo de amostras.

Flavonoides
São compostos com ampla distribuição no reino vegetal. São comuns como
pigmentos em flores. Eles são apontados como os princípios ativos de muitas
plantas medicinais, e assim despertam grande interesse.

A estrutura geral contém dois anéis aromáticos conectados a uma unidade


de três carbonos, existindo muitas variações (figura 37). Biossinteticamente,
eles são de origem mista, formados pela condensação de um fenilpropanoide
com um policetídeo de três unidades. Eles podem ocorrer na forma livre ou
como glicosídeos.

Figura 37. Estrutura molecular dos flavonoides.

Quercetina Rutina

Fonte: Moreira et al., 2015.

Outros fenólicos
São compostos considerados metabólitos secundários, derivados diretos da
descarboxilação de fenilalanina.

Apresentam boa solubilidade em solventes polares e atividades antibióticas.

São exemplos de compostos fenólicos simples: o ácido salicílico, a vanilina,


o ácido sinápico, o ácido cumárico e outros (figura 38).

69
Unidade III | O que é metabolômica?

Figura 38. Estrutura molecular dos compostos fenólicos simples.

Ácido Salicílico O-Vanilina Vanilina Ácido Cumárico

Ácido Cinâmico Ácido Sinápico Ácido Ferúlico

Fonte: Moreira et al., 2015.

70
CAPÍTULO 3
Áreas de atuação

A seguir, serão apresentadas algumas áreas de aplicação em metabolômica, a


fim de se conhecer quais tipos de estudos estão sendo executados na atualidade.

Ambiental
A metabolômica ambiental envolve o estudo das repostas metabólicas de
organismos a fatores bióticos (competição, mutualismo, relação parasita-
hospedeiro, planta-herbívoro, dentre outros) e abióticos (temperatura,
umidade, disponibilidade de nutrientes, exposição a poluentes etc.).

A aplicação da metabolômica na área ambiental é muito ampla e envolve


o estudo de organismos aquáticos, de plantas, e como estes respondem ao
estresse oxidativo, ao estresse abiótico, aos fatores bióticos, ou aos fatores
bióticos e abióticos, simultaneamente.

Também são encontrados trabalhos de exposição de organismos a poluentes,


estudos de toxicidade aplicados a agricultura, modo de ação de pesticidas,
toxicidade e função de metais em sistemas biológicos, biodisponibilidade de
contaminantes no solo, biorremediação, dentre outros.

Estudos apontam a presença de fármacos em diferentes concentrações em


águas de rios, em estações de tratamento de águas, de estuários, dentre outros.
Porém, não está bem estabelecido na literatura se a presença de fármacos
em baixa concentração na natureza pode representar risco para organismos
microbianos.

A aplicação da metabolômica na área ambiental promove melhor entendimento


dos mecanismos de respostas ao estresse abiótico de importantes microrganismos
para o meio ambiente.

Alguns exemplos da aplicação da metabolômica na área ambiental:

» análise de metabólitos em células de pseudomonas expostas a


propranolol;

» alterações metabólicas na esteroidogênese de Rutilus rutilus causadas


pelo pesticida fenotrotion.

71
Unidade III | O que é metabolômica?

O pesticida fenotrotion é empregado como um inseticida de amplo espectro


e possui efeitos muito nocivos para o ambiente aquático. Para compreender
a toxicidade desse pesticida em âmbito molecular, Viant e colaboradores
empregaram duas abordagens metabolômicas, global e alvo, para estudar
peixes das espécies Rutilus rutilus.

A hipótese de que vias metabólicas da acetilcolina e dos esteroides poderiam


estar alteradas pela resposta tóxica do organismo à ação do pesticida foi
avaliada por metabolômica alvo.

Para essa abordagem, empregou-se DIMS, para quantificar acetilcolina e colina


em amostras de cérebro, e LC-MS, para determinar esteroides nas gônadas
masculinas, além de um radioimunoensaio para quantificar 11-ketotestosterona
(11-KT) no plasma.

A metabolômica global foi realizada em amostras de gônadas masculinas e


fígado, empregando-se NMR e DIMS. O principal mecanismo de toxicidade do
pesticida foi confirmado pela alteração de acetilcolina no cérebro dos peixes
expostos ao pesticida.

Porém, esperava-se níveis baixos de acetilcolina, o que sugere que a exposição


crônica ao pesticida pode levar a um certo grau de adaptação.

Além disso, a análise metabolômica alvo dos esteroides apontou baixos níveis
de cortisona e tendência de aumento de 11-hidroxiandrostenediona nas gônadas
masculinas, além de níveis baixos de 11-KT no plasma dos peixes.

Esses resultados indicam alteração no metabolismo de esteroides. A metabolômica


global revelou alteração no metabolismo da fenilalanina, que ainda não havia
sido reportada.

Com base nos resultados inesperados em relação a previsões de toxicidade


aguda obtidos nesse estudo, os autores sugeriram que a exposição crônica
ao pesticida provocou uma adaptação fenotípica nos peixes, o que deve ser
levado em conta em estudos similares de exposição crônica.

Clínica
A metabolômica tem proporcionado aumento na compreensão, em âmbito
molecular, de diversas patologias. Inúmeras são as áreas de aplicações clínicas e
o número de publicações relacionado ao tema cresce a cada dia, especialmente
72
O que é metabolômica? | Unidade III

no que tange à detecção de biomarcadores, ao desenvolvimento de novos


tratamentos, ao diagnóstico etc.

Neste tópico são destacados alguns trabalhos de revisão de temas relevantes,


por exemplo, na área oncológica, na qual estudos têm demonstrado alterações
no metabolismo, fornecendo subsídios para o diagnóstico e monitoramento das
doenças, como no caso do câncer de próstata, gástrico, colorretal e de mama.

Outra doença crônica que vem sendo extensamente estudada é a diabetes tipo
2, que tem o número de casos aumentado ao longo dos anos, demandando a
busca por biomarcadores que possam diagnosticar precocemente essa patologia.

A área clínica também tem se beneficiado de investigações focadas em doenças


cardiovasculares, uma das maiores causas de morte no mundo e na identificação
de alterações no metabolismo causadas pela doença de Alzheimer.

Dentre outras áreas promissoras, destacam-se trabalhos relacionados a


tuberculose, doenças renais, esclerose múltipla e doença celíaca.

Alguns exemplos da aplicação da metabolômica na área clínica:

» entidades discriminantes entre os diferentes grupos de indivíduos


para estudo da ação de antirretrovirais em pacientes com HIV, em
amostras de bactérias intestinais analisadas por LC-MS modo positivo,
LC-MS modo negativo, CE-MS modo positivo, amostras de plasma
analisadas por LC-MS modo positivo e LC-MS modo negativo;

» porcentagem aumentada de acetil-CoA marcado com C13 na avaliação


da proliferação de células cancerígenas.

No primeiro exemplo, o estudo permitiu mostrar que a infecção pelo HIV


pode estar associada a mudanças no conjunto ativo de bactérias intestinais.

Com uma abordagem de análise global, amostras bacterianas do intestino e do


plasma de pacientes infectados pelo HIV (do inglês, human immunodeficiency
virus) que passaram por terapia antirretroviral foram analisadas.

Já é conhecida a relação entre a infecção por HIV e a composição da microbiota


intestinal, porém a investigação em âmbito molecular tem sido pouco explorada.

73
Unidade III | O que é metabolômica?

Utilizando as técnicas de LC-MS e CE-MS, foram examinados grupos de


pacientes infectados pelo HIV, incluindo pacientes sem tratamento prévio
(VU), respondedor imunológico (IR) e não respondedor imunológico (INR)
e um conjunto de indivíduos controle não infectados por HIV.

Foram identificados metabólitos discriminantes entre os grupos.

No segundo exemplo, para o entendimento da proliferação de células


cancerígenas, Rabinowitz e colaboradores investigaram, por meio de abordagem
metabolômica alvo, possíveis fontes da biossíntese de acetil-CoA.

Em condições ricas em oxigênio, a acetil-CoA deriva da glicose. Porém, nas


células cancerígenas hipóxicas, a contribuição da glicose diminui.

Para investigar a origem da biossíntese nessas condições, a quantificação de


acetil-CoA foi realizada por meio da análise por MS e traçadores marcados
com C-13 em células cancerígenas (HeLA e A549) e saudáveis (MDA MD468).

Os resultados mostraram que a fonte de produção de acetil-CoA foi o acetato


e permitiram identificar a enzima responsável por sua assimilação.

Esse estudo possibilitou vislumbrar inibidores dessa enzima para impedir o


crescimento tumoral.

Esporte
A metabolômica se apresenta como uma ferramenta inovadora para elucidar
os complexos mecanismos associados à prática de exercícios físicos, relevantes
para a saúde humana.

O conhecimento de mudanças metabólicas induzidas pela prática de esportes ou


exercícios físicos pode auxiliar no esclarecimento dos fatores que influenciam
tais processos.

Por muito tempo, essa abordagem foi especialmente aplicada à análise de


controle do abuso de drogas proibidas no esporte, sendo muito utilizada
para testes antidoping em humanos, nas quais amostras de urina e plasma de
atletas são analisadas.

Entretanto, um biofluido alternativo, o suor, tem sido proposto como um


novo tipo de amostra para realização desses testes.
74
O que é metabolômica? | Unidade III

Progressos nas técnicas de detecção e métodos de análise têm sido apresentados


com o objetivo de se buscar biomarcadores de doping. Adicionalmente, a
metabolômica também é aplicada no controle de abuso de medicamentos em
animais, especialmente em cavalos de corrida.

Outros tipos de estudos da área reportam a avaliação de performance de


exercícios físicos, além do entendimento das alterações metabólicas resultantes
da realização de atividades físicas e seus impactos na saúde, especialmente na
prevenção de doenças.

O efeito da prática de exercícios é tópico de uma série de estudos, como


alterações no metabolismo e envelhecimento, efeito no crescimento infantil
e ainda prevenção de doenças em mulheres grávidas e seus fetos.

Bassini e Cameron introduziram, em 2014, o termo sportomics como sendo


a “investigação das alterações metabólicas em indivíduos durante a prática de
esportes e exercícios físicos”, que visa auxiliar no entendimento do metabolismo
na prática de esportes e aprimoramento da ciência do esporte, na busca de
melhor performance, treinamento e recuperação.

Alguns exemplos da aplicação da metabolômica na área esportiva:

» resposta metabólica adaptativa em plasma de mulheres com


sobrepeso/obesas submetidas a seis semanas de exercícios de alta
intensidade;

» uso de esteroides considerados potenciais biomarcadores para análise


antidoping em cavalos de corrida.

No primeiro exemplo, as análises foram realizadas por CE-MS, com injeção


sequencial das amostras em única corrida analítica. Os resultados revelaram
que adaptações à prática do exercício físico estavam relacionadas com o
aumento de L-carnitina no plasma, devido à melhora na capacidade oxidativa
do músculo, induzida pelo exercício físico, enquanto que o status inferior
de tiol plasmático redox circulante estava associado a uma maior capacidade
antioxidante intracelular.

Adicionalmente, alterações nas concentrações plasmáticas de O-acetil-L-


carnitina e hipoxantina após prática de exercício correspondiam a um menor
estresse energético e maior capacidade de acetilação para as mulheres treinadas.

75
Unidade III | O que é metabolômica?

Os estudos demonstram que a busca por marcadores de capacidade de resposta


ao exercício é importante para auxiliar na prevenção de doenças crônicas e
na manutenção da saúde.

No segundo exemplo, o objetivo era estabelecer um novo modelo para a detecção


de possíveis abusos de esteroides inibidores da aromatase em cavalos usados
no hipismo. Esteroides endógenos livres e conjugados foram quantificados
em urina por GC-MS/MS.

Por meio de análise estatística multivariada, os autores reportaram que 7, dos


21 esteroides avaliados, foram detectados como possíveis biomarcadores para
discriminar o grupo que recebeu as doses de esteroides do grupo controle.

Adicionalmente, esse estudo revelou que, pela abordagem proposta, os inibidores


6-OXO (4-androsteno-3,6,17-triona) e ATD (1,4,6-androstatrieno-3,17-diona)
podem ser detectados em urina por um tempo mais longo, em comparação
ao método convencional de detecção direta já adotado para determinação de
doping.

Por fim, esses resultados demonstraram que a determinação de biomarcadores


por metabolômica é uma ferramenta eficiente e viável para a detecção de
abusos de diferentes drogas de mesma classe química, em diversas modalidades
do hipismo.

Nutrição
Dentro da ciência de alimentos, uma atenção mais detalhada é dada à pesquisa
em nutrição, visando correlacionar dieta, estilo de vida e saúde, com genes,
proteínas e metabólitos.

Nesse contexto, surgem novas áreas do conhecimento que foram nomeadas


de nutrigenética, nutrigenômica, nutriproteômica e nutrimetabolômica,
respectivamente.

A nutrimetabolômica, que se refere à aplicação da metabolômica na área


de nutrição, permite a caracterização de fenótipos individuais por meio da
medida de centenas ou milhares de metabólitos, após a exposição a uma dieta
específica, por exemplo.

76
O que é metabolômica? | Unidade III

De modo geral, a nutrimetabolômica está focada na descoberta de biomarcadores


por meio de avaliação do efeito de uma dieta, estudos de intervenção de dieta em
uma rota metabólica e estudo da relação dieta-doença ou, mais recentemente,
na busca de uma dieta personalizada.

Com o crescente número de trabalhos na área de alimentos sob a perspectiva


das ciências ômicas (transcriptômica, proteômica e metabolômica) e com o
intuito de relacionar os alimentos e seus componentes alimentares, a dieta e o
indivíduo, a saúde e as doenças, um novo conceito foi inserido na comunidade
científica, a foodomics.

A foodomics é definida como uma nova abordagem que relaciona as tecnologias


ômicas avançadas com a área de alimentos e nutrição, com o intuito de melhorar
o bem-estar, a saúde e segurança dos consumidores, integrando pesquisadores
de diversas áreas do conhecimento.

É possível encontrar uma série de trabalhos de revisão na literatura sob


perspectiva da metabolômica em ciência de alimentos e nutrição, seja com
ênfase nas técnicas de análise empregada e suas diversas aplicações, seja
com descrição em tratamento de dados, sugerindo o grande potencial dessa
abordagem na análise de alimentos.

O intuito da foodomics é integrar todas as grandes áreas emergentes em


alimentos, portanto diversas aplicações da área vêm sendo compiladas, tais
como: autenticação de alimentos, toxinas e segurança de alimentos, dieta e
nutrição, química verde, produtos alimentícios diversos e oriundos de plantas,
dentre outras.

Alguns exemplos da aplicação da metabolômica na área esportiva:

» benefícios da dieta à base de extrato de alecrim contra câncer de


cólon;

» efeito da ingestão de vitamina D em síndrome metabólica por meio


de análise global e alvo, em amostras de urina e sangue.

No primeiro exemplo, foram aplicadas três abordagens ômicas (transcriptômica,


proteômica e metabolômica) com mais de uma plataforma de análise para a
metabolômica global (CE-MS, RPLC-MS e HILIC-MS).

77
Unidade III | O que é metabolômica?

Nesse estudo, mais de 1300 genes, 17 proteínas e 30 metabólitos foram


identificados e correlacionados a diferentes rotas metabólicas, sendo as
principais responsáveis pelo desenvolvimento, pela manutenção e pela
morte celular.

Os autores afirmam que ainda há muito para investigar sobre os mecanismos


envolvidos para os compostos alterados quando se faz uso do alecrim,
entretanto esse trabalho auxilia no melhoramento do conhecimento dos
efeitos quimiopreventivos dos polifenóis presentes no alimento, destacando
a importância da dieta no combate e prevenção de doenças.

No segundo exemplo, a determinação dos metabólitos foi realizada por 1H-NMR


e os marcadores bioquímicos foram medidos por kits comerciais. A avaliação
dos resultados de metabolômica alvo foi realizada por análise de agrupamento
por k-means, baseada em 14 marcadores bioquímicos de síndrome metabólica
e na concentração de 25-hidroxivitamina D (25(OH)D).

Os resultados mostraram que houve aumento da 25(OH)D nos indivíduos


que receberam a suplementação da vitamina D, indicando menor risco de
ocorrência de síndrome metabólica.

A análise global dos metabólitos alterados mostrou que lactato, colina e


lipoproteínas de baixa densidade (VLDL + LDL) são os metabólitos mais
discriminantes entre grupos com e sem suplementação da vitamina D. Esses
resultados suportam a hipótese de que o efeito da vitamina D é modulado,
em parte, pelo metabolismo de lipídios.

Os autores concluem que a vitamina D é um fenótipo responsivo, com grande


potencial em estudos nutricionais, e que estudos complementares, incluindo
outros fatores genéticos e fenótipos, devem ser executados para a compreensão
da capacidade de resposta de dietas específicas.

Microbiologia
A microbiologia é a ciência que estuda os organismos microscópicos, como
fungos, bactérias e vírus.

Estudos da evolução, fisiologia e bioquímica desses organismos estão intimamente


relacionados aos sistemas biológicos e assim a metabolômica, juntamente

78
O que é metabolômica? | Unidade III

com as outras ciências ômicas, tem papel fundamental na compreensão dos


fenômenos biológicos ocorridos na microbiologia.

A metabolômica tem sido aplicada a organismos microbianos, especialmente


estudos relacionados ao metabolismo da microbiota intestinal e interações
organismo-hospedeiro, bem como marcadores de exposição a estresse ou
alterações ambientais.

Também são encontrados estudos de metabolismo secundário de microrganismos


para produção de fármacos, biocombustíveis, agroquímicos etc.

O metabolismo de diversos organismos microbianos, incluindo bactérias


Mycobacterium tuberculosis e Staphylococcus aureus, além do conhecimento das
novas vias metabólicas de Escherichia coli.

Dentre as aplicações industriais, destacam-se a área de fermentação de alimentos


e a busca por alimentos funcionais, como os probióticos.

Um segmento novo e que vem sendo explorado na indústria e estudado pelas


ciências ômicas é o processo de biolixiviação, que consiste na conversão de
metais, frutos de rejeitos industriais, catalisada por microrganismos.

Na área médica, o foco é voltado para pesquisas sobre diagnóstico de infecções,


resistência ou desenvolvimento de novos fármacos, produção de vacinas e
antibióticos a partir de microrganismos.

Alguns exemplos da aplicação da metabolômica na área de microbiologia:

» entendimento do metabolismo e crescimento de bactérias Staphylococcus


aureus;

» avaliação das adaptações metabólicas em Mycobacterium tuberculosis


durante hipóxia.

No primeiro exemplo, foi utilizada metabolômica global por meio de análises


por NMR para avaliar o efeito do oxigênio no crescimento bacteriano. Os
experimentos foram executados em cultivos de S. aureus sob condições aeróbicas
e anaeróbicas.

Também foram comparados o crescimento em cultura controle (meio


suplementado com glicose). Cerca de 50 compostos foram identificados.

79
Unidade III | O que é metabolômica?

A separação entre os grupos de cultura aeróbica e anaeróbica podem ser


observadas no modelo PCA, assim como os metabólitos responsáveis por
essa separação.

Os metabólitos mais discriminantes entre os perfis foram isobutirato, isovalerato


e succinato, em condições aeróbicas, e lactato, etanol e ornitina, em condições
anaeróbicas.

Os autores observaram que a presença de oxigênio é de fato muito importante


para o crescimento dos microrganismos, e que alteram significativamente o
metaboloma do S. aureus.

Esses resultados podem auxiliar no desenvolvimento de novas estratégias para


lidar com contaminações e infecções pelo microrganismo.

No segundo exemplo, foi utilizado um estudo metabolômico alvo por LC-MS


baseado em metabolômica em fluxo, para avaliar as adaptações metabólicas
de Mycobacterium tuberculosis, especificamente no ciclo do ácido tricarboxílico
(TCA).

Diferentes porcentagens de oxigênio foram avaliadas durante a replicação das


bactérias. A análise em fluxo, utilizando acetato isotopicamente marcado com
C-13, demonstrou diferenças em derivados de ácidos orgânicos, intermediários
do TCA.

Os autores observaram que os teores de a-cetoglutarato diminuíram, enquanto


que succinato, malato e aspartato aumentaram. Essas alterações indicam uma
ativação na enzima isocitrato liase, a qual já se tem relatos de estar relacionada
à sobrevivência de microrganismos.

Por fim, concluem que as alterações demonstram que a M. tuberculosis se


adapta facilmente à hipóxia por meio de uma alteração em seu metabolismo
bioenergético. Esse mecanismo pode ser facilmente extrapolado para outros
microrganismos ou células (tumorais e hospedeiras), auxiliando no entendimento
de adaptações em diferentes condições e concentrações de oxigênio.

Parasitologia
Parasitas são organismos que necessitam de um hospedeiro para se manterem
vivos e em crescimento. Podem pertencer a três classes: protozoários (seres

80
O que é metabolômica? | Unidade III

unicelulares, como Leishmania, Plasmódio, Giardia etc.), helmintos (tipos


de vermes, como Fasciolas, Ascarídeos, Esquistossomos etc.) e ectoparasitas
(parasitas externos, como piolho, carrapato, sanguessugas etc.).

As infecções parasitárias causam uma série de doenças em humanos,


especialmente nos que vivem em países em desenvolvimento.

As ciências ômicas têm se mostrado bastante adequadas para estudos da


biologia parasitária; tecnologias de análise avançadas e tratamento de dados
são frequentemente apresentados nos estudos metabolômicos de parasitas.

Em 2010, uma edição especial da revista “Parasitolgy (Insights into the metabolomes
of parasites)”, contendo 14 publicações de especialistas na área, foi dedicada
a artigos de revisão em metabolômica parasitológica.

Além dessa edição especial, frequentemente são encontradas compilações


sobre o tema, dedicadas a aplicações na identificação de novas drogas-alvo,
estudos de mecanismo de ação e resistência de intervenções farmacêuticas e
desenvolvimento de novas vacinas.

Além disso, são encontrados trabalhos que revisam o aprimoramento de


estratégias de diagnóstico e tratamento de doenças parasitárias, o conhecimento
da interação hospedeiro-parasita e a determinação de biomarcadores.

Em uma busca rápida nas bases de dados de artigos científicos, deparamos-nos


com centenas de trabalhos de revisões em metabolômica aplicada às doenças
causadas por parasitas, por exemplo, doenças negligenciadas, ou especificamente
destacando gêneros parasitários, como: Leishmania e Tripanossoma ou ambas,
Plasmódio, Entamoeba, Cryptosporidium, Nematódeos, dentre outros.

Alguns exemplos da aplicação da metabolômica na área de parasitologia:

» identificação e extração de metabólitos em amostras de Fasciola


hepatica, um parasita que causa inflamação crônica no fígado de seus
hospedeiros (boi, ovelha, porco, homem);

» diagnóstico de leishmaniose em cães.

No primeiro exemplo, foi utilizada análise metabolômica global. A otimização


da extração foi realizada por desenho experimental de misturas de solventes
(metanol, água e clorofórmio), envolveu o uso de multiplataformas de análise

81
Unidade III | O que é metabolômica?

com LC-MS (fase reversa e de interação hidrofílica, modos positivo e negativo)


e CE-MS (modo positivo), para separação e detecção dos compostos extraídos
diretamente do verme.

Nesses estudos, foram detectados 142 metabólitos oriundos de 14724 entidades


moleculares, utilizando 5 plataformas analíticas, comparando-as entre si
e demonstrando a capacidade de detecção de cada uma e a seletividade das
técnicas de análise utilizadas.

Como observado, não existe técnica de análise universal, uma vez que a
análise por cromatografia em fase reversa facilita a separação de compostos
com características mais apolares, como derivados de fosfolipídios, as colunas
para interação hidrofílica, favorecem a separação de compostos de polaridade
intermediária, como aminoácidos e seus derivados, nucleotídeos etc.

A eletroforese capilar é responsável pela separação de compostos polares


ionizáveis, e de cadeia curta, como colinas e alguns aminoácidos, sendo,
portanto, essas técnicas complementares, acessando diferentes classes químicas.

A complementaridade das plataformas analíticas em evidência proporciona


maior cobertura do metaboloma, aprimorando o entendimento biológico do
sistema estudado.

No segundo exemplo, para diagnosticar leishmaniose em cães, foi utilizada


metabolômica alvo para análise de compostos orgânicos voláteis. Três grupos
de amostras de pelos de cães saudáveis e infectados com Leishmania infantum
(apresentando ou não sinais clínicos) foram analisados por GC-MS e revelaram
diferentes perfis dos compostos detectados.

Após tratamento e análise estatística multivariada dos dados normalizados,


foram encontrados seis candidatos a biomarcadores: octanal, nonanal,
b-hidrixietil fenil éter, decanal, heptadecano e 2-etilhexil-salicilato.

Esses seis compostos foram considerados biomarcadores por caracterizarem a


presença ou ausência da doença. A diferença nos níveis desses biomarcadores
foi atribuída a interações metabólicas entre o parasita e as células dos cães. E
poderia ainda indicar a intensidade da doença.

Um trabalho como este confirma a importância dos estudos de metabolômica


na parasitologia, pois através de uma análise simples, com um método de

82
O que é metabolômica? | Unidade III

coleta de amostra não invasivo, é possível diagnosticar a doença, facilitando


seu controle e prevenção.

Plantas
Devido à grande complexidade química das plantas, em que se estima a existência
de mais de 200 mil metabólitos, a análise metabolômica é uma abordagem
que se mostra muito interessante, pois além de auxiliar no entendimento do
metabolismo desses seres vivos, também pode trazer melhorias em termos
de rendimento nos cultivos.

O número de publicações e o interesse na área é tão grande que, em 2013, um


Handbook voltado para análise metabolômica em plantas foi publicado. Nele
são destacados trabalhos interessantes apresentando protocolos e métodos de
análise, tratamento de dados e destaques para rotas metabólicas.

Em uma busca rápida nas bases de dados de periódicos, é possível encontrar nos
últimos 17 anos mais de 100 artigos de revisão na área, em diversas aplicações.

Dentre essas revisões, destacam-se algumas com enfoque em estudos de


alterações ambientais e genéticas, resposta ao estresse, saúde e tratamento
de doenças, ecologia e evolução, agricultura, bem como trabalhos dedicados
à metabolômica com uso de compostos isotópicos que auxiliam na elucidação
de rotas e melhoram a identificação e quantificação de metabólitos.

Também são frequentemente encontrados estudos envolvendo mais de uma


abordagem ômica, como proteômica e transcriptômica.

Alguns exemplos da aplicação da metabolômica no estudo com plantas:

» alterações nas rotas metabólicas afetadas pela deficiência de ferro


em cultivos de tomate, beterraba, tremoço e pessegueiro;

» avaliação do teor de fitormônios e seus metabólitos em seis variedades


de raízes de cevada, submetidas ou não a estresse salino.

No primeiro exemplo, foi utilizada a metabolômica global para avaliar as


alterações ambientais em cultivos de tomate, beterraba, tremoço e pessegueiro,
mantidos sob condições normais e sob deficiência de ferro.

83
Unidade III | O que é metabolômica?

A análise de extratos das folhas e seiva do caule (xilema) foi realizada por
GC-TOF-MS, possibilitando a detecção de mais de 200 metabólitos para cada
grupo de amostras.

Diversas classes de metabólitos, como aminoácidos e carboidratos, foram


encontradas significativamente alteradas nas comparações entre os grupos
estudados.

Foi observado nas amostras de seiva (xilema) que grande parte dos metabólitos
alterados está diminuída, enquanto que nas amostras das folhas está aumentada
com a deficiência de ferro.

Os autores concluíram que existe uma correlação significativa entre aminoácidos


e metabólitos do ciclo do ácido cítrico (TCA) na sobrevivência a curto prazo
das plantas analisadas em ausência de ferro, o que pode afetar diretamente a
produtividade da cultura.

No segundo exemplo, para a avaliação do teor de fitormônios e seus metabólitos


em seis variedades de raízes de cevada, submetidas ou não a estresse salino, um
método foi desenvolvido e validado por LC-MS para realizar a quantificação
dos metabólitos alvos.

O método de análise se mostrou bastante rápido, com a separação dos dez


analitos em menos de 10 min e com boa recuperação dos metabólitos.

Na comparação entre os grupos estudados foram observadas diferentes


alterações entre os fitormônios e seus metabólitos (especialmente aminoácidos),
indicando que essas mudanças metabólicas dependem da variedade da cevada.

Esses estudos apresentaram resultados que contribuem para um melhor


entendimento no que se refere à resposta ao estresse salino em plantas e
em nível molecular, e como o estresse afeta a produção de fitormônios, o
crescimento, o desenvolvimento e o metabolismo de plantas.

Toxicologia forense
A toxicologia é uma ciência que estuda os efeitos adversos causados por
substâncias químicas em organismos vivos.

84
O que é metabolômica? | Unidade III

A intoxicação é um fenômeno complexo de alteração da homeostasia de um


organismo, induzida por um xenobiótico (agente tóxico), e seu grau depende
de fatores como a toxicidade da substância química (xenobiótico), quantidade
(concentração ou dose), via (oral, dérmica, pulmonar), frequência e duração da
exposição, além de características individuais do organismo exposto (espécie,
idade, sexo, estado nutricional e de saúde).

Ainda que um xenobiótico exerça sua ação tóxica em um órgão ou tecido


específico (que geralmente é o foco principal dos estudos toxicológicos),
deve-se considerar também sua ação secundária no indivíduo intoxicado.

A metabolômica tem sido aplicada na toxicologia forense, e trabalhos nessa


área têm sido revisados frequentemente, mostrando que o estudo comparativo
do perfil metabólico pode desempenhar papel importante na descoberta e
validação de novos biomarcadores, além de contribuir para o entendimento
e consequente interpretação dos mecanismos de ação tóxica de xenobióticos.

A dependência de drogas como cocaína, anfetaminas, opioides e etanol é um


grave problema de saúde pública e, recentemente, estudos de metabolômica
vêm sendo conduzidos para tentar explicar (ou complementar) o entendimento
da toxicologia das drogas de abuso, na busca por biomarcadores para
hepatotoxicidade e nefrotoxicidade induzida pela ação de drogas. E métodos
de quantificação de drogas e seus metabólitos também vêm sendo desenvolvidos
para aplicação em diversas matrizes biológicas.

No que tange às ciências forenses, a metabolômica tem sido utilizada em


diferentes aplicações, com análise em diversos biofluidos, como urina, plasma,
cabelo, unha, saliva etc., além de investigações de causas de morte e intervalo
pós-morte.

Alguns exemplos da aplicação da metabolômica em toxicologia forense:

» avaliação da dependência de drogas;

» avaliação do efeito da cocaína no metabolismo da glicose e aminas


biogênicas.

No primeiro exemplo, para a avaliação da dependência de drogas utilizando


a metabolômica global, foram utilizadas amostras de plasma e urina de ratos.

85
Unidade III | O que é metabolômica?

Os animais foram tratados com doses repetidas de morfina (4mg/kg),


metanfetamina (2mg/kg) e cocaína (10mg/kg). Amostras de urina foram
coletadas antes do início da administração dos fármacos e no 12 o dia após o
início do tratamento, quando também foram coletadas as amostras de plasma.

As amostras foram analisadas por GC-MS, e os resultados foram analisados


por análise multivariada não supervisionada (PCA).

Dessas análises, foram identificados 57 metabólitos nas amostras de plasma


e 70 metabólitos nas amostras de urina.

Observaram-se também alterações significativas no metaboloma dos animais


tratados com morfina, porém o mesmo não ocorreu nos animais tratados com
as demais drogas de abuso estudadas.

Com isso, pode-se inferir que a alteração do metaboloma na dependência está


diretamente relacionada ao mecanismo de ação de cada substância no centro
de recompensa no cérebro.

No segundo exemplo, que envolve a análise de drogas de abuso, foi utilizada a


espectrometria de massas por mobilidade iônica. Essa foi a técnica de análise
para estudar o efeito da cocaína no metabolismo da glicose e de aminas
biogênicas em regiões específicas do cérebro de ratos.

Utilizando uma abordagem metabolômica alvo, foi determinado a


presença de diversos neurotransmissores e seus metabólitos, tais como:
noradrenalina, serotonina, ácido 5-hidroxi-indolacético, dopamina e ácido
3,4-dihidroxifenilacético no córtex frontal, estriado e tálamo de ratos controle
e tratados com cocaína.

A concentração dessas substâncias foi medida por adição de padrão e permitiu


distinguir entre as diferentes áreas anatômicas do cérebro, bem como observar
que a concentração de alguns desses neurotransmissores (ou seus metabólitos)
é alterada significativamente em animais que receberam cocaína.

Na avaliação metabolômica global, foram identificadas mais de 200 entidades


moleculares que permitiram a distinção entre grupos tratados e controle.

86
ANÁLISE
METABOLÔMICA? UNIDADE IV

CAPÍTULO 1
Coleta e extração de amostra para
realizar análises de metabolômica

Assim como a diversidade de metabólitos em um organismo é enorme, o


mesmo pode-se dizer da concentração desses compostos no organismo. Mesmo
os compostos encontrados em concentrações relativamente baixas podem ser
importantes marcadores para distúrbios no metabolismo.

Portanto, detectar diferenças que possam existir em componentes minoritários


de um extrato é mais um dos desafios nos estudos de metabolômica. Além
das diferenças devido ao metabolismo enzimático, há diferenças inerentes à
função do metabólito.

Assim, açúcares ou ácidos graxos que participam do metabolismo energético


são, usualmente, encontrados em concentrações muito superiores a maioria
dos hormônios ou vitaminas, por exemplo.

Como muitas das vias metabólicas são comuns aos organismos, pode-se
prever parte do seu metaboloma. Essa previsão pode ser feita mesmo que esse
organismo não tenha sido estudado anteriormente.

Pode ser feita também uma busca bibliográfica dos compostos já identificados
em determinado organismo ou grupo de organismos. Nesse caso, é bom
sempre lembrar que para muitos organismos pode haver diferentes nomes,
especialmente plantas.

Apesar de ser possível prever grande parte dos metabólitos presentes em


um organismo, pode haver grandes variações entre grupos ou até dentro da
mesma espécie.

87
Unidade IV | Análise metabolômica?

Isso devido a mudanças no ambiente, o parte do organismo estudado ou outros


fatores. Essas diferenças normalmente são mais pronunciadas no metabolismo
secundário.

A gama de metabólitos encontrados em um organismo pode variar conforme


o meio ambiente ao qual o organismo está exposto (variação fenotípica). Estas
também podem ser induzidas ou reprimidas caso os mecanismos de controle
sejam conhecidos, alterando assim a gama de compostos acumulados.

Em plantas são conhecidos os chamados fitoalexinas, que são compostos


produzidos em resposta a um ataque de um patógeno.

Deve-se enfatizar que os compostos encontrados em um organismo nem sempre


derivam de suas próprias vias metabólicas. Compostos podem ser adquiridos
pela alimentação ou pelo convívio com outros organismos.

Exemplos evidentes de compostos indispensáveis ao metabolismo de humanos


são os aminoácidos essenciais, assim chamados porque há a necessidade de
sua ingestão, já que sua biossíntese não ocorre em nosso organismo. Outro
exemplo são as vitaminas que também devem ser obtidas pela alimentação.

Durante a coleta e extração da amostra, é essencial utilizar métodos bem


padronizados para minimizar o efeito de variações, uma vez que, em estudos
de metabolômica, há a necessidade de comparação da identidade e quantidade
dos metabólitos presentes nas diferentes amostras.

Para impedir que as reações metabólicas ocorram, logo após a coleta, deve-se
extrair imediatamente as amostras ou então congelá-las ou liofilizá-las até
que sejam processadas.

É durante a etapa de extração que ocorre a inativação enzimática e a separação


dos metabólitos (micromoléculas) do resto dos componentes macromoleculares
da amostra (matriz). Essa separação ocorre por meio da centrifugação ou
filtração, em que as células são rompidas e os metabólitos, solubilizados.

Para a extração das amostras, utiliza-se solventes orgânicos; contudo, deve-se


lembrar que nenhum solvente é capaz de dissolver todos os metabólitos, devido
à sua grande diversidade estrutural que traz uma diversidade de propriedades
físicas, por exemplo, a solubilidade. Existem metabólitos hidrossolúveis, como
os açúcares, e os metabólitos lipossolúveis, como os esteroides.

88
Análise metabolômica? | Unidade IV

O grau de solubilidade de um soluto em um solvente depende do balanço de


forças intermoleculares entre solvente e solvente, soluto e soluto e solvente e
soluto. Utiliza-se a generalização “semelhante dissolve semelhante” significando
que um solvente polar dissolverá melhor solutos polares, e vice versa.

Desse modo, não existe solvente que dissolva todos os metabólitos porque
eles podem ser tanto polares quanto apolares.

A polaridade é uma das propriedades de uma ligação química, assim a polaridade


de uma molécula depende da diferença de eletronegatividade dos elementos que
a compõem e de sua forma. A eletronegatividade é definida como a capacidade
do átomo, estando ligado a outro, de atrair elétrons para si.

Quando dois átomos de eletronegatividades distintas estão ligados, a distribuição


dos elétrons no orbital molecular não é uniforme e, portanto, a ligação é
polar. De maneira geral, pode-se concluir que quanto maior a diferença de
eletronegatividade dos átomos ligados, maior será a polaridade da ligação.

No entanto, seja qual for o solvente utilizado em uma extração, ele revelará
um perfil específico de metabólitos porque extrairá com a melhor eficiência
os metabólitos que nele sejam mais solúveis.

Diferentes fatores devem ser levados em consideração na hora de se escolher


um solvente para a extração. Além da solubilidade, deve-se observar o grau de
pureza, que dever ser alto para evitar a contaminação do extrato por compostos
que não pertençam à amostra, a possibilidade de gerar artefatos, as impurezas
no solvente podem gerar a formação de artefactos, a facilidade de manuseio, o
ponto de ebulição, a toxicidade, dando preferência aos solventes menos tóxicos
ou menos poluentes, e o método de análise a ser utilizado posteriormente.

Para minimizar variações durante a extração, deve-se padronizar alguns


fatores, como o tipo de solvente, a proporção entre material extraído e
solvente (peso/volume), o tempo de extração, a etapa de concentração e o
armazenamento dos extratos até a análise.

Para aumentar a diversidade dos metabólitos extraída, é possível usar uma


sequência de solventes de polaridades crescentes. Outro fator a ser considerado
é a quantidade de solvente utilizado na extração.

89
Unidade IV | Análise metabolômica?

Por mais solúvel que os compostos sejam em determinado solvente, se o


volume usado na extração não for o suficiente, ocorrerá saturação no solvente
que levará a erros na etapa de quantificação dos metabólitos.

O método de concentração e secagem dos extratos depende do solvente utilizado.


O volume de solvente utilizado em uma extração de metabólitos deve ser o
menor possível para diminuir o tempo necessário para concentração/secagem
dos extratos e minimizar a concentração de impurezas contidas no solvente.

Para solventes orgânicos, utiliza-se uma centrífuga a vácuo que permite a


secagem simultânea de muitos extratos. É necessário padronizar as condições
de secagem evitando a exposição a temperaturas altas que podem levar à
degradação de compostos. No caso de extratos aquosos, um método adequado é
a liofilização que, como ocorre a baixas temperaturas, minimiza a possibilidade
de degradação.

Após sua extração e secagem, os extratos devem ser armazenados a temperaturas


e luminosidade baixas, sendo algumas vezes necessário substituir os efeitos
oxidantes da atmosfera por nitrogênio.

Em algumas amostras, por exemplo, urina e sangue de humanos, é possível


pular a etapa da extração e analisar as amostras diretamente. Nesse caso, é
importante a desativação enzimática e remoção de proteínas ou qualquer
outro componente que possa prejudicar a análise.

90
CAPÍTULO 2
Técnicas usadas em metabolômica

Nas outras ciências “ômicas”, como na genômica, na transcriptômica e na


proteômica, existe um procedimento padrão para seus estudos, uma vez que
essas ciências analisam moléculas relativamente uniformes tanto em sua
estrutura quanto em suas propriedades físicas e químicas.

O mesmo não acontece na metabolômica, pois, como vimos, essa ciência


estuda uma ampla gama de compostos diferentes com grande variedade de
propriedades físicas e químicas. O que torna evidente a não utilização de um
procedimento padrão em suas análises.

O objetivo em um estudo de metabolômica é verificar e identificar as diferenças


qualitativas e/ou quantitativas de metabólitos entre grupos de amostras,
bem como investigar a influência de fatores ambientais ou a influência da
introdução de novos genes no metabolismo de um organismo.

Para obter resultados confiáveis e precisos, dada a complexibilidade da rede


metabólica de um organismo, fica entendido que não é uma tarefa fácil e
depende do desenvolvimento de metodologias práticas.

O objetivo final em um estudo de metabolômica sempre é identificar as


diferenças moleculares e o maior número de compostos responsáveis por
essas diferenças utilizando um mínimo de investimento de mão de obra, de
tempo e custo.

Para isso, primeiramente, é preciso obter impressões digitais metabólicas, as


quais podem ser obtidas tanto pelas técnicas cromatográficas quanto pelas
técnicas espectroscópicas.

Os fatores importantes para a escolha da técnica mais adequada são: a quantidade


de compostos a ser analisada, a reprodutibilidade da técnica, a linearidade da
resposta quantitativa e a facilidade da preparação das amostras.

Todo o método cromatográfico tem como objetivo separar compostos contidos


em uma amostra. Compostos de uma mistura são separados de acordo com a
afinidade com as fases (fase estacionária e a fase móvel).

O método de detecção determina se um composto é detectado e com qual


sensibilidade. Cada pico no cromatograma corresponde a um composto, e a
quantidade do composto é refletida na intensidade do pico.

91
Unidade IV | Análise metabolômica?

Para a análise de compostos individuais, o fator de resposta deve ser conhecido


ou determinado. Ressalta-se que são comuns grandes diferenças na resposta.

Existem várias técnicas cromatográficas desenvolvidas com o objetivo de


separar compostos com características distintas.

Cromatografia gasosa
É utilizada para analisar compostos apolares e de baixo peso molecular, ou seja,
compostos voláteis que apresentam ponto de ebulição até 350 graus Celcius.

Também é usada para analisar compostos que possam produzir derivados


voláteis e compostos termicamente estáveis nas condições de trabalho.

Cromatografia líquida
É utilizada para analisar compostos mais polares e de maior peso molecular ou
compostos que não possam ser analisados pela cromatografia gasosa devido
às altas temperaturas utilizadas durante a corrida.

Dentre as técnicas de cromatografia líquida, destaca-se a cromatografia líquida


de alta eficiência, também conhecida como HPLC ou CLAE (figura 39). Essa
técnica faz parte do grupo da cromatografia por coluna e é utilizada em
amostras, como alimentos, solo, sangue, urina etc.

Figura 39. Aparelho de HPLC.

Fonte: http://w2.ifg.edu.br/itumbiara/index.php/noticias/2222-equipamento-quimico-de-cromatografia-hplcclae-sera-tema-de-palestra-no-
campus.

92
Análise metabolômica? | Unidade IV

Esse tipo de cromatografia surgiu no anos 1970 e vem apresentando novas


sofisticações tecnológicas, como a utilização de colunas preenchidas por
partículas de tamanhos pequenos e o aperfeiçoamento dos detectores (exe.:
fluorescência, espectrômetro de massa acoplado ao HPLC).

Essa técnica tem a capacidade de realizar separações e análises quantitativas de


uma grande quantidade de compostos presentes em vários tipos de amostras,
em escala de tempo de poucos minutos, com alta resolução, eficiência e
sensibilidade.

Entretanto, o sucesso dessa separação cromatográfica só é possível se for


aplicada uma fase móvel (FM) correta a uma fase estacionária (FE) conveniente.

A fase estacionária é a parte fixa e o eluente é a parte móvel (fase móvel), sendo
que a diferença de polaridade dos componentes da amostra proporcionará a
esses constituintes interações diferentes com a fase estacionária e a fase móvel.

A fase estacionária é constituída de partículas sólidas empacotadas em uma


coluna, a qual é atravessada pela fase móvel que é líquida. São as forças físicas
e químicas que atuam entre os solutos e as duas fases que são responsáveis pela
retenção dos solutos sobre a coluna cromatográfica. A diferença dessas forças
é que determina a resolução e, portanto, a separação dos solutos individuais.

Na fase estacionária, podem ser utilizados compostos sólidos ou líquidos. Os


sólidos normalmente são substâncias absorventes, tais como, sílica, carvão
ativo etc., que se encontram “empacotadas” em uma coluna, a qual é atravessada
pela fase móvel.

Nesse caso, a base para a separação de misturas é chamada de absorção. Já o


composto líquido da fase estacionária é denominado de película delgada, sendo
que nesse caso a base de separação de misturas é denominada de partição.

Na fase móvel, emprega-se uma mistura de alguns solventes, por exemplo,


metanol, acetonitrila e água, sendo que essa mistura é denominada de eluente.
Normalmente para a fase móvel existem alguns critérios quanto aos solventes,
tais como: grau de pureza dos solventes, baixa viscosidade, dissolução da
amostra sem perda dos compostos e polaridade adequada para a realização da
separação dos componentes da amostra.

93
Unidade IV | Análise metabolômica?

O equipamento para a realização desse tipo de cromatografia é conhecido


como cromatógrafo líquido e é formado por vários sistemas: sistema de
reservatório de fase móvel, sistema de bombeamento de fase móvel, sistema de
injeção, sistema analítico que é formado pela coluna cromatográfica, sistema
de detecção que pode ser por fluorescência, UV e espectrometria de massa e
sistema de aquisição e registro dos dados (figura 40).

Figura 40. Esquema de um cromatógrafo líquido.

Coluna cromatográfica

Dados
Injeção da
amostra
Resíduos

Fase
móvel
Detector
Bomba

Fonte: https://freitag.com.br/blog/o-que-e-a-cromatografia-liquida-de-alta-eficiencia.

A amostra é dissolvida em um solvente e introduzida na coluna cromatográfica


preenchida com a fase estacionária. Um solvente, que é a fase móvel, é bombeado
com vazão constante e desloca os componentes da mistura por meio da coluna
cromatográfica, e estes se distribuem entre as duas fases de acordo com as
suas afinidades.

As substâncias com maior afinidade com a fase estacionária movem-se mais


lentamente e as substâncias com pouca afinidade com a fase estacionária
movem-se mais rapidamente.

Ao sair da coluna cromatográfica, os componentes passam por um detector,


o qual emite um sinal elétrico que é registrado em um computador e forma
um cromatograma (figura 41).

94
Análise metabolômica? | Unidade IV

Figura 41. Exemplo de um cromatograma.

Componente B

Picos Cromatográficos

Momento em Componente C
que a amostra Componente A
foi colocada

Tempo

Fonte: https://www.biomedicinapadrao.com.br/2015/04/hplc-cromatografia-liquida-de-alta.html.

Já as técnicas espectroscópicas, ao contrário das técnicas cromatográficas, não


são utilizadas isoladamente para analisar os extratos brutos dos experimentos
em metabolômica, pois apresentam algumas limitações como a necessidade
de ionização dos compostos.

Esse processo provoca o chamado processo de supressão iônica durante a


ionização dos extratos brutos, interferindo na ionização de outros compostos;
por isso, a técnica de espectrometria de massas é usada em combinação com
a cromatografia líquida (LC-MS) ou com a cromatografia gasosa (GC-MS).

Na cromatografia gasosa (GC-MS), esse processo de ionização dos compostos


ocorre por meio de impacto de elétrons, o que fornece espectros bem
característicos a eles. Pode acontecer de compostos apresentarem muitos
isômeros, o que torna difícil distinguir os seus espectros. Entretanto, quando
existe um padrão de composto disponível, pode-se verificar a co-eluição com o
padrão e o tempo de retenção, pois raramente isômeros apresentam espectros
de massa e tempos de retenção iguais.

Contudo, como já mencionado anteriormente, nem todas as moléculas são


voláteis o suficiente para serem analisadas pela cromatografia gasosa. Tem
ainda a limitação da técnica quanto ao peso molecular máximo e a instabilidade
térmica apresentada pelos compostos devido às altas temperaturas necessárias
para a realização.

95
Unidade IV | Análise metabolômica?

A cromatografia líquida é o segundo método cromatográfico frequentemente


acoplado ao espectrômetro de massa. A primeira dificuldade técnica
que surgiu foi o acoplamento do espectrômetro de massas a um método
cromatográfico cuja fase móvel é líquida e cujos fluxos de eluente eram na
ordem de 1ml/min.

Hoje em dia, essas dificuldades foram superadas e há vários tipos de interfaces


entre o cromatógrafo e espectrômetro de massas que são adequadas para a
análise de uma variedade ampla de compostos.

A interface entre a cromatografia líquida e o espectrômetro de massas mais


utilizados é a eletrospray. Nessa interface o líquido, ao entrar no espectrômetro,
recebe uma carga elétrica e é evaporado, levando a transferência de carga para
as moléculas a serem analisadas.

Este método de ionizaçao é bem mais suave que a ionização por impacto de
elétrons e, consequentemente, há pouca fragmentação da molécula e, portanto,
pouca informação estrutural além do peso molecular.

Os bancos de dados desse tipo de espectro de massas ainda são bem mais limitados
quando comparados aos bancos de dados da técnica citada anteriormente. Assim
como na cromatografia gasosa, a co-eluição de um padrão pode ser utilizada
para conferir o tempo de retenção e o espectro de massas sendo suficiente
para a identificação.

Um dos métodos mais utilizados na espectrometria de massa é o MALD-TOF.


Aqui, o material é colocado em uma placa com matriz e bombardeado
com um laser que o evapora; em seguida, um sistema ioniza e aspira o
material volatilizado, o qual chega a detectores que registram o tempo
que a substância chega ate o detector e a sua quantidade. Essa técnica
baseada em conceitos proteômicos é capaz de fornecer resultados altamente
precisos em poucos minutos.

A sigla MALDI-TOF significa Matrix Associated Laser Desorption-Ionization


– Time of Flight e conferiu ao seu inventor, o pesquisador japonês
Koichi Tanaka, da Shimadzu Corporation, um prêmio Nobel de química
em 2002. (figura 42).

96
Análise metabolômica? | Unidade IV

Figura 42. Aparelho de MALD_TOF.

Fonte: https://www.unifesp.br/reitoria/multiusuarios/equipamentos/paginas-dos-equipamentos/112-espectrometro-de-massas-maldi-tof-
matrix-assisted-laser-desorption-ionization-time-of-flight-mass-spectrometry.

Essa técnica consiste num sistema no qual o material é colocado em uma placa
em que há a matriz polimérica. Isso é irradiado com um laser que vaporiza a
amostra e há ionização de várias moléculas, que são aspiradas num tubo de
vácuo e levadas a um detector. Conforme a molécula, o tempo de chegada ao
detector (time of flight) é diferente.

Isso é colocado em um gráfico, gerando vários picos, onde cada amostra


apresenta um gráfico específico. Uma base de dados de computadores interpreta
o gráfico gerado e fornece o resultado.

A ressonância magnética nuclear (figura 43), deferentemente da cromatografia


gasosa e da cromatografia líquida, fornece espectros que refletem as quantidades
exatas dos compostos visíveis. Seu espectro contém o somatório de todos os
espectros dos componentes individuais.

Figura 43. Aparelho de ressonância magnética nuclear.

Fonte: https://wp.ufpel.edu.br/centralanaliticaquimica/equipamentos/ressonancia-magnetica-nuclear-rmn/.

97
Unidade IV | Análise metabolômica?

Assim, não é possível identificar mais de algumas dezenas de componentes


dentro dos espectros do extrato, sendo que estes, na maioria das vezes, são
os componentes principais da amostra.

A identificação dos componentes é mais confiável nessa técnica do que com


espectrometria de massas, porque o espectro completo está presente. A
preparação das amostras é mais simples e há maior reprodutibilidade.

A grande desvantagem é que somente algumas dezenas de compostos podem


ser observadas, enquanto que nas outras técnicas centenas de compostos
podem ser analisados.

Os experimentos em metabolômica visam verificar diferenças quantitativas


e qualitativas de metabólitos, são dois os fatores críticos do experimento:
a extração das amostras e a sua análise. Entretanto, deve-se uniformizar
todos os parâmetros desde o tipo e coleta de material até a preparação e o
armazenamento das amostras para diminuir ao máximo as possíveis variações
indesejáveis, pois, somente assim, será possível detectar as diferenças entre
os grupos tratados e o controle.

Dados adicionais obtidos junto com a cromatografia podem ajudar bastante


para chegar a uma identificação dos picos da espectrometria de massa. É
importante que os picos correspondam com compostos específicos e que não
haja confusão em relação à sua identidade. Compostos conhecidos podem ser
identificados logo após a obtenção da impressão digital metabólica usando
os bancos de dados.

A seguir, resumo com as principais técnicas, características e aplicações.

Quadro 1. Principais técnicas, características e aplicações em estudos de metabolômica.

Técnica Características Aplicações


analítica
Alta sensibilidade, analitos voláteis somente, Metabólitos alvos e metabolômica
CG-EM
baixo custo
Alta sensibilidade, analitos não voláteis, alto Metabólitos alvos, perfil metabólico e
CL-EM
custo metabolômica
Baixa sensibilidade, alta reprodutibilidade, Padrão metabólico, perfil metabólico e fluxo
RMN
alto custo metabólico
Alta sensibilidade, alto custo, acoplada à Padrão metabólico, metabólitos alvos, perfil
EM
técnica de separação metabólico, metabolômica e fluxo metabólico
Fonte: https://repositorium.sdum.uminho.pt/bitstream/1822/44834/1/document_46661_1.pdf.

98
CAPÍTULO 3
Processamento de dados

Em um experimento de metabolômica, podem ser distinguidas diferentes fases


(figura 44). Após a fase experimental, são obtidos os resultados (os dados
brutos) na chamada fase de obtenção de resultados.

Após a obtenção dos resultados (cromatograma), é necessário análise


multivariada dos dados para poder comparar os diferentes conjuntos de dados
e assim verificar se existem diferenças significativas entre eles.

Figura 44. Diferentes fases em um experimento de metabolômica.

EXPERIMENTO
Análise das amostras

DADOS
Pré-processamento dos dados

DADOS LIMPOS
Pré-tratamento dos dados

DADOS PRONTOS PARA ANÁLISE


Análise dos dados

INDICAÇÃO DOS COMPOSTOS OU PICOS

Fonte: Moreira et al., 2015.

Nas técnicas de cromatografia gasosa e cromatografia líquida, os dados são


representados pelos tempos de retenção, intensidades dos picos e espectros de massas.

Na técnica de ressonância, os dados são obtidos pelos deslocamentos químicos


dos picos e pelas suas intensidades.

Anteriormente a etapa de análise dos dados, é necessário que os dados brutos


passem por um processo de pré-tratamento de dados, ou seja, esses dados
brutos passam por diferentes processos até ficarem limpos de contaminantes
e se tornarem dados limpos, aptos às análises.

O processo de pré-processamento de dados envolve as seguintes etapas.

Adaptação da escala dos picos


Todos os espectros ou cromatogramas individuais devem passar por esse
processo para ajustar a intensidade de seus picos utilizando a intensidade de
picos internos padrão.

99
Unidade IV | Análise metabolômica?

Alinhamento dos picos


Independentemente da técnica utilizada, seja cromatografia gasosa, seja
cromatografia líquida ou seja ressonância magnética nuclear, é comum
ocorrerem pequenas variações de fatores externos ou internos que podem
deslocar os picos, tornando o seu alinhamento complicado.

Essas pequenas variações são causadas por diferenças no tempo de retenção


de picos individuais, que podem ocorrer devido à temperatura da análise, à
qualidade da coluna, aos outros compostos presentes no extrato e às pequenas
variações de pH.

Para fazer esse alinhamento dos picos, utiliza-se um padrão interno para o
deslocamento químico.

Binning ou bucketing
Nessa etapa o espectro é dividido em regiões, onde todas as regiões são
integradas. Isso facilita a comparação entre os espectros, ou seja, pequenas
variações no deslocamento por causa de fatores como pH, concentração ou
temperatura são eliminadas, mas, em contrapartida, ocorre uma enorme perda
da resolução, ou seja, há uma enorme perda de informação de pequenos sinais.

Esse processo é utilizado mais comumente em espectros resultantes da técnica


de ressonância magnética nuclear.

Peak picking
Nessa etapa ocorre o registro dos picos com as suas intensidades.

Deconvolução
Nessa etapa ocorre a extração de dados do espectro utilizando modelos
matemáticos tendo como base os espectros dos componentes individuais.

Depois de passar por todas essas etapas, os dados tornam-se limpos, os quais
ainda devem passar pelo chamado pré-tratamento dos dados (figura 41).

Essa etapa tem influência direta nos resultados da análise multivariada e pode
ser utilizada para aumentar a importância dos metabólitos menos abundantes
na análise.

100
Análise metabolômica? | Unidade IV

O processo de pré-tratamento de dados envolve as seguintes etapas.

Centering
Nessa etapa somente a variação é considerada para a análise. As intensidade
ou concentrações são convertidas para flutuações em volta de zero.

Ajustamento da escala
É necessário o ajustamento da escala de cada componente pela divisão do
valor por um fator específico para cada um.

Isso ocorre para que haja a possibilidade de comparação entre diferentes


compostos presentes em altas concentrações com outros em baixas concentrações.

Transformação de dados
Corresponde à transformação logarítmica e também à transformação na
mudança da escala.

Após serem limpos, os dados são submetidos às análises multivariadas. As


técnicas mais comuns utilizadas em análises multivariadas são Principal
Component Analysis (PCA) e Partial Least Squares – Differential Analysis
(PLS-DA).

Principal Component Analysis (PCA) é um procedimento matemático que


verifica os componentes principais que mostram a maior variabilidade, dentro
do conjunto total de dados, convertendo o conjunto das observações num
conjunto de variáveis linearmente não correlacionadas.

Na Partial Least Squares – Differential Analysis (PLS-DA) a correlação dos


dados ocorre com variáveis independentes, aumentando o risco de obter
correlações não existentes, especialmente quando a quantidade de variáveis
é maior que o número de amostras. Por isso, esse processo sempre deve ser
acompanhado pelo processo de validação de dados.

A análise multivariada é importante não somente para indicar os compostos que


diferenciam os conjuntos das amostras, mas também para excluir a possibilidade
de overfitting (quando há muitas variáveis e poucas amostras) ou ainda excluir
a possibilidade que as diferenças foram causadas pelo desenho experimental.

101
Unidade IV | Análise metabolômica?

É imprescindível que os compostos responsáveis pelos sinais sejam identificados


para gerar a hipótese da origem dos fatores que levam as diferenças entre os
conjuntos das amostras.
Durante essa identificação, pode-se distinguir dois casos: ou o composto é
conhecido e deve-se confirmar a sua estrutura ou o composto é desconhecido
e a sua estrutura deve ser elucidada e confirmada.
Quando se trata de um composto comum, para checar sua identidade, deve-se,
primeiramente, verificar todas as informações disponíveis das análises realizadas
anteriormente. Nas análises de cromatografia gasosa e cromatografia líquida,
há o tempo de retenção no sistema cromatográfico, os dados de espectrometria
de massas, a massa molecular e, as vezes, o espectro de massa mostrando
fragmentação.
Nas análises de ressonância magnética nuclear, deve-se verificar, primeiramente,
a presença de todos os seus sinais. O deslocamento químico do sinal indica o
tipo de hidrogênio presente na amostra e, às vezes, pode indicar o composto.
Na figura 45, pode-se observar os diferentes fragmentos dos espectros de
amostras de mamão. Em A, tem-se o fruto super maduro; em B, tem-se o
fruto com distúrbio fisiológico; e, em C, tem-se o fruto normal.

Figura 45. Fragmentos de amostras de mamão.

3 2.5 2 1.5 1 PPM

Fonte: Moreira et al., 2015.

102
Análise metabolômica? | Unidade IV

Quando a estrutura sugerida é de um composto comum e existe um padrão


disponível, a identificação é confirmada pela adição do padrão à amostra, onde
é verificada a coincidência exata de todos os sinais do composto com os do
padrão, além da intensidade de cada um dos sinais, que devem ser idênticas.

Quando não existe padrão disponível, mas se trata de um composto com


sinais claros, espectros adicionais podem ser obtidos da mesma amostra para
fornecer informações adicionais.

Entretanto, quando isso não é possível por se tratar de compostos com pouca
quantidade na amostra ou porque existe muita sobreposição de sinais, o
composto deveria ter sido isolado.

O isolamento de um composto permite a obtenção de diferentes espectros,


como espectros de ultravioleta, infravermelho, rotação ótica e outros dados.

Esses diferentes espectros fazem parte das informações que são exigidas para
publicar estruturas inéditas.

Já para a elucidação estrutural de compostos desconhecidos são utilizados os


seguintes espectros:

» 2D-COSY = mostra as correlações entre átomos de hidrogênio;

» 2D-HSQC = mostra as correlações entre átomos de hidrogênio e


átomos de carbono ligado entre si;

» 2D-HMBC = mostra as correlações entre átomos de hidrogênio e


átomos de carbono ligados entre si por duas ou três ligações;

» 2D-NOESY = mostra as correlações entre átomos de hidrogênio que


estão espacialmente próximos um do outro.

As análises de espectrometria de massas também são importantes para a


identificação estrutural dos compostos, pois fornece informações sobre a
fórmula molecular e sobre o arranjo dos átomos na molécula.

Informações a cerca do arranjo dos átomos são obtidas após a fragmentação


da molécula, o chamado espectro de massas (figura 46). O íon mais frequente
gera o sinal mais alto e é chamado de pico base.

103
Unidade IV | Análise metabolômica?

Apesar de ser uma técnica destrutiva, a quantidade de amostra necessária


para realização das análises é na ordem de nano- ou picogramas e, portanto,
tão pequena que na maioria das vezes essa desvantagem é apenas secundária.

Figura 46. Espectrometria de massas obtida por impacto de elétrons.

100
42

93
80 68
% pico de base

60

79
40

121 136
20

0
Massa/Carga (m/z)

Fonte: Moreira et al., 2015.

Quando o espectro apresenta íon molecular, a fórmula molecular pode ser


derivada se utilizados espectrômetros de alta resolução, pois as massas dos
átomos que compõem a molécula analisada não são integrais.

Portanto, a massa do íon molecular é o somatório das massas dos isótopos


mais abundantes de cada elemento, e a abundância de cada elemento pode
ser calculada. Para obtenção da fórmula molecular, é importante o grau de
resolução do espectrômetro de massas.

Quanto maior a exatidão na determinação da massa, menores serão as


possibilidades de fórmula molecular para cada massa nominal. Também a
medição exata da intensidade dos picos de isótopos facilita a determinação
da fórmula molecular porque os elementos têm isótopos com abundâncias
naturais bem definidas.

104
Análise metabolômica? | Unidade IV

O espectro de massas também fornece informação sobre o arranjo dos átomos


em uma molécula, pois o padrão de fragmentação pode ser racionalizado.

São várias as técnicas utilizadas para induzir a fragmentação de uma molécula


que, dependendo da energia utilizada, levarão a graus diferentes de fragmentação.

A probabilidade de uma ligação ser quebrada depende, dentre outros fatores,


da força dessa ligação e da estabilidade dos fragmentos gerados.

Existem bancos de espectros de massa que facilitam a identificação de compostos


por comparação, sendo que os bancos mais úteis foram gerados com ionização
por impacto de elétrons.

Pelo descrito acima, fica claro que a elucidação estrutural dos compostos no
extrato geralmente é a parte mais complexa do experimento de metabolômica,
mas estudos sem a identificação formal dos compostos não têm sentido.

105
INTEGRAÇÃO
DAS “ÔMICAS” E UNIDADE V
METABOLÔMICA

As ciências ômicas tratam da análise global dos sistemas biológicos, integrando


diferentes áreas do conhecimento, como a bioquímica, genética, fisiologia
e computação, com o objetivo de isolar e caracterizar genes, proteínas e
metabólitos, assim como estudar as interações entre eles, com base em técnicas
experimentais, softwares e bancos de dados.

Os dados gerados pelo sequenciamento dos genomas de diferentes organismos


transformaram a biologia. A integração de várias áreas do conhecimento
permitiu avançar os estudos em relação à genômica, os processos de transcrição
das informações contidas nos genes, a transcriptômica, bem como a compreensão
do conjunto dos produtos desses genes pela proteômica.

No início desta década, com o advento do genoma humano, também se iniciava


as discussões e as ações para uma nova era da biologia, a “era pós-genômica”.
Nesse contexto, promoveu-se o desenvolvimento e o aperfeiçoamento das
técnicas que permitiram os avanços dessas novas ciências ômicas, como a
transcriptômica, proteômica e metabolômica, com o objetivo de isolar e
caracterizar o RNA, as proteínas e os metabólitos, respectivamente; sendo
possível também devido ao desenvolvimento da bioinformática.

A bioinformática, por sua vez, propõe novas formas de ciência baseada na


experimentação in silico, sendo muito dinâmica na sua atualização e fornecendo
a base para geração de novos dados e conhecimentos que podem ser aplicados
na pesquisa básica e no desenvolvimento de novos produtos e soluções. Esse
processo está intimamente relacionado à inovação tecnológica, que é conseguida
unindo-se a biotecnologia e a bioinformática.

O termo metaboloma foi criado em 1998, denominando a análise da concentração


relativa de metabólitos resultantes de modificações no padrão de expressão
gênica. A metabolômica tem como pressuposto uma abordagem holística e
interativa de análise, segundo a qual o metabolismo celular é efetivamente
entendido como uma rede complexa de reações altamente ordenadas e
interconectadas, de modo que mesmo pequenas alterações, como a diminuição
106
Integração das “ômicas” e metabolômica | Unidade V

na concentração ou atividade de uma enzima, podem causar modificações


simultâneas na concentração de centenas de metabólitos.

A originalidade do uso do termo metaboloma deve-se ao uso do conjunto de


ferramentas de análise como complemento a outras áreas “ômicas”. A partir de
então, o termo passou a designar uma estratégia de análise bastante complexa,
que se refere ao levantamento qualitativo e quantitativo dos metabólitos
presentes em um organismo (metaboloma total) ou em um dado componente
deste (tecidos ou células, por exemplo), denominando-se metaboloma parcial.

Alterações induzidas geneticamente, epigeneticamente ou por influência do


ambiente são manifestadas, em última instância, por meio de alterações na
composição e concentração de metabólitos. Assim, comparando-se os perfis
metabólicos gerados em tecidos que diferem geneticamente ou no seu estado
epigenético, diferenças genômicas funcionais podem ser inferidas.

Até o presente, a utilização de uma única técnica analítica não possibilita a


obtenção do quadro metabolômico completo de uma dada amostra, sendo
necessário adoção de um conjunto interdisciplinar de abordagens que integra
biologia, química analítica, química orgânica, quimiometria e informática.

Desse modo, o metaboloma fornece uma ligação direta entre o genoma,


o transcriptoma e o proteoma, podendo revelar quais fatores influenciam
diretamente uma dada função biológica.

A metabolômica, por exemplo, auxilia na identificação da diversidade e na


abundância de pequenas moléculas em células ou grupos celulares.

Sua integração com o transcriptoma, feito especialmente em vegetais, são uma


importante ferramenta de correlação entre elementos de informação (genes
e transcritos) e elementos funcionais (metabólitos) em células.

A integração de dados em múltiplas escalas vem sendo empregada também,


de forma crescente, em diversas esferas, avaliando a resposta a estresse em
diferentes organismos (integrando dados de transcriptômica, proteômica e
metabolômica), e até no âmbito das ciências biomédicas, no aprimoramento
da capacidade das técnicas disponíveis atualmente na diferenciação de casos
de câncer em pacientes dos controles (integrando dados de proteômica,
metabolômica e glicômica).

107
Unidade V | Integração das “ômicas” e metabolômica

Como visto nos capítulos anteriores, é frequente nos estudos com metabolômica
o uso de amostra com alta complexidade química, o que pode gerar dados com
uma baixa precisão em alguns casos.

Por isso, a estratégia nesses estudos é a utilização de métodos analíticos para


reduzir o efeito perturbador vindo da matriz ou do instrumento. Assim, a
abordagem inicial é o pré-tratamento da amostra para a remoção de compostos
de alto peso molecular e enzimas.

Para tanto, utiliza-se desnaturação, ultrafiltração, diálise, permeação em gel.


A extração em sistemas líquido-líquido, ou em fase sólida, poderá ser útil
à remoção de sais, ou ainda como etapa final no processo de purificação do
composto.

Adicionalmente, é importante a padronização dos métodos de pré-tratamento da


amostra em análises metabolômicas, pois a precisão observada no conjunto de
dados metabolômicos mostra-se como função direta de protocolos padronizados
de preparo amostral.

A próxima etapa é a utilização de técnicas seletivas e de boa resolução, por


exemplo, cromatografia gasosa, cromatografia líquida, acopladas a espectometria
de massa, as quais possibilitam a identificação simultânea de centenas de
compostos em matrizes complexas.

Quando a análise metabolômica busca identificar compostos-alvos, observa-se


a necessidade de utilização de técnicas que sejam simultaneamente seletivas e
com alta sensibilidade, possibilitando a obtenção de dados robustos na análise
de amostras biológicas.

Infelizmente, os sistemas de detecção utilizados isoladamente não oferecem,


na maioria das vezes, a seletividade necessária, de modo que a detecção do
composto de interesse pode ser dificultada pela interferência de outras moléculas
de alto ou baixo peso molecular, com natureza hidrofóbica ou hidrofílica, as
quais ocorrem frequentemente em altas concentrações na matriz da amostra.

Uma segunda abordagem experimental em análises do metaboloma é a obtenção


de perfis metabólicos associada ao estudo da função dos metabólitos encontrada
nas técnicas de espectrometria de massa e na ressonância nuclear magnética.

108
CAPÍTULO 1
Recursos de bioinformática

O termo “ômicos” refere-se à análise global dos sistemas biológicos. Dentre


as tecnologias ômicas que impulsionam estas novas áreas de investigação,
mencionam-se as tecnologias de DNA e microarrays, a espectrometria de
massas e uma série de outras tecnologias e instrumentação que permitiram
uma alta capacidade de análise.

O domínio da bioinformática cresceu em paralelo e com a internet, em


que a rápida análise de dados e a troca de informações sobre os códigos
biológicos e computacionais estão em convivência harmônica, por meio
de suas múltiplas ramificações, gerenciando e integrando bancos de dados
aplicáveis, e construindo sistemas in silico para simulação de formas naturais
e modificadas de produtos específicos.

Desse modo, o aumento substancial de sequências e de informações produzidas


pelo rápido avanço das ciências ômicas está ajudando a prover novos caminhos
da exploração de textos pela bioinformática.

A tabela a seguir apresenta uma lista de páginas da internet com recursos


de bioinformática utilizados para fazer as análises de dados em estudos das
ciências “ômicas”.

Quadro 2. Programas de bioinformática utilizados em análises de estudos de ciências “ômicas”.

Nome Endereço
PFAM http://pfam.jouy.inra.fr/.
SANGER http://www.sanger.ac.uk/Software/Pfam/.
Blast http://www.ncbi.nlm.nih.gov/BLAST.
CaM Target http://calcium.uhnres.utoronto.ca/ctdb/ctdb/home.html.
CAP3 http://genome.cs.mtu.edu/cap/cap3.html.
CAS http://www.cas.org/.
Clustal http://www.clustal.org/.
Cytoscape http://www.cytoscape.org/.
Drug DataBase http://chrom.tutms.tut.ac.jp/JINNO/DRUGDATA/00database.
html.
Easy Align http://www.scriptspot.com/3ds-max/easyalign.
Entrez Protein http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein.
GenBank http://www.ncbi.nlm.nih.gov/Genbank.
GENE 3D http://gene3d.biochem.ucl.ac.uk/Gene3D/.

109
Unidade V | Integração das “ômicas” e metabolômica

Nome Endereço
Gene Ontology http://www.geneontology.org/.
Google http://www.google.com.
Google Scholar http://scholar.google.com.
HiMAP http://www.himap.org/.
HoGenom http://ralyx.inria.fr/2007/Raweb/helix/uid41.html.
INSDC http://insdc.org.
Interpare http://interpare.net/.
InterPro http://www.ebi.ac.uk/interpro/.
KEGG http://www.genome.jp/kegg/.
NCBI http://www.ncbi.nlm.nih.gov.
Osprey http://biodata.mshri.on.ca/osprey/servlet/Index.
PANTHER http://www.pantherdb.org/.
Pfam http://www.sanger.ac.uk/Software/Pfam/.
Phrap http://www.phrap.org.
PHYLIP http://evolution.genetics.washington.edu/phylip.html.
PIRSF http://pir.georgetown.edu/iproclass/.
PRF http://www.prf.or.jp/en/index.shtml.
PRINTS http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/.
ProDom http://prodom.prabi.fr/prodom/current/html/home.php.
PROSITE http://ca.expasy.org/prosite/.
PubChem http://pubchem.ncbi.nlm.nih.gov/.
PubMed http://www.pubmed.com.
RNAMOTIF http://www.scripps.edu/mb/case/casegr-sh-3.5.html.
SBBiotec http://www.sbbiotec.org.br/.
SCOP http://scop.mrc-lmb.cam.ac.uk/scop/.
SetupX http://fiehnlab.ucdavis.edu.
SMART http://smart.embl-heidelberg.de/.
String http://string.embl.de/.
SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/.
SwissProt http://www.expasy.ch/spro/.
TIGRFAMs http://www.tigr.org/TIGRFAMs/index.shtml.
Tree View http://taxonomy.zoology.gla.ac.uk/rod/treeview.html.
UniProt http://www.ebi.ac.uk/uniprot/.
UniprotKB http://www.ebi.ac.uk/trembl/.
Fonte: Espínola et al., 2010.

O processo geral de descoberta de conhecimento em banco de dados é composto


por diversas etapas, sendo as principais: a associação, o agrupamento e a
descoberta das regras de classificação dos dados.

110
Integração das “ômicas” e metabolômica | Unidade V

A tarefa de classificação pode ser realizada por algoritmos convencionais ou por


métodos de inteligência artificial, por exemplo, as redes neurais, os algoritmos
evolucionários, dentre outros. Além disso, trabalhos têm demonstrado a
importância dessa ferramenta para estudos científicos, onde são utilizados o
text mining e o data mining.

O text mining é uma ferramenta de obtenção de dados não estruturados, escritos


em linguagem natural, extraídos a partir de um banco de dados estruturado,
com o auxílio de algoritmos para análise de textos não estruturados.

O processo de text mining envolve três subáreas: recuperação, extração,


questões e respostas da informação, permitindo a identificação de identidades
biológicas e suas interações, facilitando a análise de dados.

A primeira subárea consiste na extração de documentos a partir de uma grande


coleção. Nesse caso, há dois tipos de estratégia de busca: uma é a partir da
combinação de palavras-chave e busca usando documentos como referência,
para selecionar outros documentos semelhantes.

Uma ferramenta de busca de dados amplamente usada é o sistema de


Information Retrieval do EntrezPubMed fornecido pelo NCBI (National
Center for Biotechnology Information). O popular Google foi recentemente
incorporado como ferramenta de busca específica para literatura acadêmica
com o GoogleScholar, que recupera artigos científicos, livros e reportagens.

Já o data mining é um processo não trivial de identificar, em dados, padrões


válidos, novos, potencialmente úteis e ultimamente compreensíveis. Possui
diversos algoritmos desenvolvidos recentemente que processam os dados e
encontram padrões válidos e novos.

No início da década de 1970 até os anos 1980, um grande avanço marcou os


meios físicos de armazenamento de dados, o desenvolvimento de softwares
para o gerenciamento de dados, denominados de Sistemas Gerenciadores de
Bancos de Dados e, logo após, o surgimento do modelo relacional, permitindo
rápida recuperação de dados dirigidos.

Nos anos 1990, surgem os Bancos de Dados Multidimensionais ou Data Warehouses


que propiciam o processo analítico on-line (OLAP). A diferença entre o OLAP
e o data mining é que no primeiro o analista gera as hipóteses que podem ser
validadas ou negadas, e no segundo o próprio sistema gera as hipóteses.

111
CAPÍTULO 2
Genômica, transcriptômica e
proteômica

Genômica e proteômica estão cada vez mais em evidência no cenário científico


devido aos mecanismos envolvidos na expressão e interação dos genes, bem
como a compreensão das redes funcionais estabelecidas pelas proteínas.

Paras as diferentes análises nos nucleotídeos, são utilizados quatros principais


bancos de dados: INSDC (International Nucleotide Sequence Database), o
DDBJ (Data Bank of Japan), o EMBL (Embl Nucleotide Sequence Database)
e o GenBank.

Os registros de associação incluem dados de genes individuais, genomas


completos, RNAs, anotações, sequências expressas, cDNAs e sequências
sintéticas. Por serem bancos de dados primários, são a fonte inicial de bancos
de dados em biologia molecular.

Bancos de dados secundários são uma fonte de anotações estáveis onde os


genes são anotados por evidências derivadas de proteínas conhecidas, cDNAs
e sequências expressas.

Outro banco de dados é o RefSeq (Reference Sequence) que disponibiliza


sequências compreensíveis, integradas e não redundantes, incluindo DNA
genômico, transcritos e proteínas de diversos organismos.

Por outro lado, o Genome Review representa uma versão da sequência original
de um cromossomo ou plasmídeo, com informações importadas de fontes que
incluem o UniProt (Universal Protein Resource), Gene Ontology (GO), projeto
GOA (Go Annotation), InterPro e HoGenom, além de serem disponibilizadas
referências cruzadas com 18 bancos de dados.

Para a identificação de genes, em seres eucariotos, dois softwares são muito


utilizados, o Glimmer e o Genemark. Eles analisam as ORFs (janelas de
leitura na sequência), sendo que cada uma é alinhada e comparada com as de
outras espécies conhecidas e depositadas em bancos de dados como GenBank
e SwissProt.

A anotação é considerada completa quando o genoma está decodificado e


minimamente anotado, com seus genes identificados e conferidos. A anotação
funcional se dá pela comparação das sequências obtidas com as depositadas

112
Integração das “ômicas” e metabolômica | Unidade V

em bancos de dados como o GenBank e o Blast, sendo este uma ferramenta


mais amplamente utilizada para esse tipo de comparação.

Em 2001, pela união da iniciativa pública e privada, realizou-se o projeto de


sequenciamento e montagem do Genoma Humano. Sobre o genoma humano
em particular, o banco Genew, como parte do HUGO (Human Genome
Organization), mantém um depósito de nomes e símbolos de genes para se
definir uma nomenclatura de dados submetidos por este genoma.

O objetivo com esse projeto era identificar todos os genes estimados do DNA
humano, determinar as sequências de bases, armazenar as informações em
banco de dados e desenvolver ferramentas para a análise dos dados. Entretanto,
apenas 50% dos genes sequenciados codificam proteínas com função conhecida.

Existem também os bancos de EST (Expressed Sequence Tag) que, ao invés de


sequenciar todo o genoma de um organismo e depois tentar descobrir quais
são seus genes, apenas os genes expressos pelo organismo são capturados e
sequuenciados.

Mesmo com o grande avanço provocado pela bioinformática, ainda persistem


vários desafios, por exemplo, os dados de microarranjo que ainda não possuem
uma grande reprodução de dados, resultando em um baixo poder estatístico.

Muitos métodos estatísticos padrões falham por causa de problemas com o


tamanho das amostragens, o que pode levar a uma desatualização dos bancos
de dados comumente utilizados.

A evolução da bioinformática, iniciada com análises de sequenciamento,


tem oferecido avanços nas ciências “ômicas”, principalmente nas anotações
dos transcriptomas, permitindo a inter-relação entre o genoma funcional e
a informação codificada.

Atualmente, estudos moleculares requerem a interação entre análises genômicas,


celulares e dados de bioinformática, a qual apresenta, gradativamente, um
papel essencial na geração de resultados aliados à alta tecnologia.

Contudo, o sequenciamento do genoma humano demonstrou que


aproximadamente 98% de todos os produtos transcritos em humanos
correspondem a RNAs não codificantes. Essa informação levantou questões
referentes à diferenciação e ao desenvolvimento tanto de espécies quanto de
mecanismos moleculares individuais.

113
Unidade V | Integração das “ômicas” e metabolômica

A predição da estrutura do RNA é normalmente baseada nas características


termodinâmicas do folding da molécula ou na conservação filogenética das
regiões de pareamento de bases e, nesse sentido, existem duas estratégias
básicas na predição de RNAs não codificantes.

A primeira é baseada na homologia genômica que existe ao longo da evolução,


e um dos métodos computacionais é o Rfam, capaz de alinhar mais de 500
famílias de RNAs não codificantes e determinar a estrutura predominante
que resulta desse alinhamento.

Outros softwares desenvolvidos para detectar ncRNAs é o Trnascanse,


especializado na busca por tRNAs com elevada sensibilidade e baixa proporção
de falso-positivos; e os Promir, Mir-Abela, Mir-Scan, miRseeker e Harvester,
dedicados na busca por miRNAs em humanos, mamíferos, vertebrados, D.
melanogaster e plantas, respectivamente.

Esses programas utilizam tanto métodos heurísticos quanto modelos


probabilísticos para capturar as sequências e características estruturais dos miRNAs.

Se a função do ncRNA depende de elementos estruturais bem definidos e há


uma sequência ortóloga de um organismo correlato, pode-se usar dois outros
programas: o Infernal ou CMfinder.

Caso exista apenas um único ncRNA cuja estrutura funcional é determinada,


mas nenhuma sequência equivalente é conhecida em outro genoma relacionado
evolutivamente, pode-se buscar uma sequência-alvo para regiões que são similares
ao RNA conhecido. Nesse caso, encontra-se disponível o programa Rsearch.

Alguns ncRNAs não dependem de uma estrutura bem definida, permitindo-se


optar por uma busca baseada essencialmente na similaridade de sequência
conservada ao longo da evolução, sendo suficiente para identificá-los no
genoma.

Nesse sentido, existem programas especializados na busca por apenas homologia


de sequência (perfil-HMMs) e aqueles disponíveis para realizar o alinhamento
e folding ao mesmo tempo.

Dentre esses se encontram o Foldalign, capaz de detectar estruturas locais ao


invés de identificar estruturas globais com vários loops, e o Dynalign, que
reduz a complexidade computacional limitando o espaço de busca e o tamanho
dos loops presentes nas estruturas internas do RNA.

114
Integração das “ômicas” e metabolômica | Unidade V

As desvantagens desses dois últimos residem na sua incapacidade de explicitar


regiões que não adquirem uma determinada estrutura e na ineficiência do
alinhamento baseado na estrutura da molécula.

A segunda estratégia inclui a predição abinitio de ncRNAs, o que constitui o maior


desafio na busca dessas moléculas não codificantes. Também existem algoritmos
computacionais eficientes que objetivam predizer estruturas estáveis de RNA
em grande escala genômica, como o RNAplfold. Contudo, o potencial desse
programa na detecção de ncRNAs ainda não foi sistematicamente investigado.

Embora o repertório de isoformas proteicas expressas nos organismos complexos


seja significativamente incrementado pelo processamento pós-transcricional
alternativo (splicing alternativo), a combinação desses polipeptídeos com
os sinais ambientais fornecem informações insuficientes sobre os processos
biológicos, de maneira que a maioria dos sistemas regulatórios é controlada
por moléculas de RNA.

Uma das ferramentas mais utilizadas na análise transcriptômica é a tecnologia


de microarranjo (figura 47) que constitui uma das principais ferramentas
para estudos de expressão gênica, sendo muito aproveitada na avaliação de
aspectos da biologia de sistemas e o estudo dos perfis de interação entre
diversas biomoléculas.

Figura 47. Experimento de microarranjo.

Extração

Amostra de Tecido

Saudável Tumoral

Cy5 Cy3
Obtenção de
cDNA marcado

Hibridização
Análise

Fonte: Espínola et al., 2010.

115
Unidade V | Integração das “ômicas” e metabolômica

O primeiro microarranjo surgiu em meados da década de 1990 e possuía 45


sondas de cDNA. Com os aprimoramentos tecnológicos, no ano seguinte à sua
publicação, pesquisadores apresentaram trabalhos com cerca de mil sondas
de arrays e atualmente é comum encontrar trabalhos que utilizem dezenas
de milhares de sondas.

A empresa pioneira em microarranjo foi a AFFYMETRIX. Ela trabalhava com


uma metodologia de apenas um canal (uma cor). Na tecnologia de microarranjo
com lâminas de vidro, várias sequências de DNA conhecidas (sondas) são
impressas em uma mesma lâmina.

Nos arrays de duas cores, os mRNAs são extraídos de células pertencentes


às duas condições distintas e por meio de transcrição reversa, utilizando
oligonucleotídeos marcados, o cDNA é obtido. Os oligonucleotídeos são
marcados com corantes fluorescentes (cianinas), sendo o corante Cy3 verde,
e o Cy5, vermelho, como mostrado na figura 47.

Após toda a experimentação biológica, as marcações são interpretadas por


um software específico e os dados são analisados por ferramentas estatísticas.

O grande desafio enfrentado por estudiosos e bioinformatas é descobrir


qual a estrutura tridimensional adotada pelas proteínas a partir da estrutura
primária. No entanto, as ferramentas in silico disponíveis atualmente ainda
não são totalmente confiáveis.

Os métodos experimentais utilizados para obtenção da estrutura tridimensional


são cristalografia por difração de raio-X e ressonância magnética nuclear.
Entretanto, esses métodos podem ser onerosos e de difícil execução, além de
apresentarem limitações técnicas.

Essas e outras dificuldades fazem com que a quantidade de estruturas de


proteínas decifradas ainda componha uma pequena fração do total de proteínas
existentes.

No estudo completo das proteínas, integrando estrutura e função, os


pesquisadores utilizam bancos de dados diversos que possam atender aos
diferentes ramos da proteômica. Um dos mais usados é o banco de dados Entrez
Protein, um depósito de sequências disponibilizado pelo NCBI e compilado
por meio de uma variedade de fontes.

116
Integração das “ômicas” e metabolômica | Unidade V

O banco contém as sequências de proteínas submetidas aos bancos PIR (Protein


Information Resource), UniProtKB/Swiss-Prot, PRF (Protein Research
Foundation) e PDB. Outro também muito utilizado é o UniProt, um catálogo de
dados de sequências e funções de proteínas, mantido pelo consórcio UniProt.

O consórcio é uma colaboração entre o SIB (Swiss Institute of Bioinformatics),


o EBI (European Bioinformatics Institute) e o PIR. O banco UniProt é
compreendido por três componentes, o acurado UniProtKB (Uniprot
Knowledgebase), que continuou o trabalho do UniProtKB/Swiss-Prot; o
UniProtKB/TrEMBL e o PIR.

O UniProtKB/Swiss-Prot é um banco anotado manualmente com informações


extraídas da literatura e análises computacionais, contendo níveis mínimos
de redundância e alto nível de integração com outros bancos de dados.

Na análise de dados obtidos utilizando a eletroforese bidimensional, o


banco de dados SWISS-2DPAGE é o mais útil, pois armazena resultados
experimentais que utilizam essa metodologia e acrescenta uma variedade
de referências cruzadas com outros bancos de dados semelhantes, além do
UniProtKB/Swiss-Prot.

No entanto, se o objetivo é descrever a função molecular, o contexto biológico


e a localização celular do produto gênico, o Gene Ontology é o mais indicado.

Um método alternativo e não experimental é a modelagem molecular, baseada


em conhecimentos estereoquímicos dos aminoácidos. Uma das maneiras de
se fazer a modelagem molecular é por meio da homologia entre sequências,
em que uma delas já possui forma tridimensional definida.

O primeiro passo é a pesquisa de proteínas homólogas em bancos de dados


de estruturas de proteínas como o PDB (Protein Database Bank), que
é uma colaboração entre o RCSB (Research Collaboratory for Structural
Bioinformatics), O MSD-EBI (Macromolecular Structural Database) E O Pdbj
(Protein Data Bank of Japan).

A seguir, deve-se realizar o alinhamento das sequências de aminoácido das


proteínas homólogas e a proteína-alvo, por meio do Clustal, por exemplo.
A modelagem é realizada por softwares como o Modeller, Swiss-Model,
3D-PSSM, dentre outros.

117
Unidade V | Integração das “ômicas” e metabolômica

Esses programas normalmente procuram encontrar a estrutura terciária que


melhor se aproxime da disposição dos átomos das proteínas utilizadas como
modelo, e que ao mesmo tempo atenda às restrições físico-químicas.

Outro tipo de modelagem é o Threading, que compara estrutura de uma


proteína teste com a estrutura de outra proteína conhecida com uma pequena
similaridade de sequência. Nesse modelo, é levada em consideração a distância
entre os resíduos de aminoácidos, a estrutura secundária e as características
físico-químicas.

118
CAPÍTULO 3
Metabolômica e interatômica

Os sistemas biológicos estão cada vez mais sendo estudados de maneira


holística, usando abordagens ômicas, para fornecer descrições quantitativas
e qualitativas da coleção diversificada de componentes celulares.

Dentre as abordagens ômicas, a metabolômica, que trata do perfil quantitativo


global de pequenas moléculas ou metabólitos, está sendo amplamente utilizada
para explorar a resposta dinâmica de sistemas vivos, como organelas, células,
tecidos, órgãos e organismos inteiros, sob diversos aspectos fisiológicos e
condições patológicas.

Das múltiplas plataformas analíticas disponíveis para realizar tais análises,


a ressonância magnética nuclear e a espectrometria de massa passaram a
dominar devido à alta resolução e aos grandes conjuntos de dados que podem
ser gerados com essas técnicas.

Os grandes conjuntos de dados multidimensionais que resultam de tais estudos


devem ser processados e analisados para tornar esses dados significativos.

Assim, as ferramentas de bioinformática são essenciais para o processamento


eficiente de grandes conjuntos de dados, a caracterização dos sinais detectados
e para alinhar vários conjuntos de dados e suas características.

A análise metabolômica visa realizar a determinação simultânea e a análise


quantitativa de metabólitos intracelulares.

Uma vez que a metabolômica se preocupa com pequenas moléculas, substratos


e produtos da atividade celular, ela permite explorar de forma direta e imediata
a interface sistema biológico/ambiente.

Isso pode ser apreciado pela grande sensibilidade dos níveis de metabólitos
à intervenção farmacológica e toxicológica sutil. Como consequência, a
metabolômica está desempenhando um papel cada vez mais importante na
biologia de sistemas, um campo que visa integrar informações coletadas em
vários níveis biológicos.

Agora é amplamente utilizado em muitas aplicações, incluindo microbiologia,


descoberta de biomarcadores diagnósticos, testes toxicológicos, análise
de alimentos e bebidas, fenotipagem de plantas e animais e descoberta e
desenvolvimento de medicamentos.

119
Unidade V | Integração das “ômicas” e metabolômica

A ressonância magnética nuclear (RMN) é uma das técnicas analíticas mais


comumente utilizadas em estudos de metabolômica devido à sua natureza
quantitativa e alta reprodutibilidade.

Além disso, os espectros de ressonância magnética nuclear fornecem uma


riqueza de informações bioquímicas não disponíveis por outros meios.

Essa técnica também apresenta a vantagem definitiva de que pode ser usado
de maneira não destrutiva para permitir o perfil metabolômico in vivo [21-22]
e até permitir a imagem de metabólitos em amostras biológicas.

No entanto, a sensibilidade relativamente baixa de NMR e a sobreposição


espectral que frequentemente ocorre limitam o número e a variedade de
metabólitos que podem ser observados simultaneamente.

Outros métodos como a espectrometria de massa e as cromatografias gasosa e


líquida fornecem maior sensibilidade e são consideradas plataformas analíticas
líderes para análise de perfil de metabólitos.

Por causa das diversas propriedades físicas e químicas (por exemplo, peso
molecular, polaridade e solubilidade) dos metabólitos contidos em amostras
típicas, nenhuma metodologia analítica única pode criar perfis de conjuntos
de dados de forma abrangente.

As técnicas de cromatografia gasosa e cromatografia líquida são geralmente


capazes de criar perfis de metabólitos voláteis, com carga única ou múltipla.

Já a espectrometria de massa envolve o uso de método de separação físico-


química em conjunto com um espectrómetro de massa para a detecção. Esses
dois sistemas produzem dados que são multidimensionais com um componente
de relação de tempo e massa/carga.

Como a metabolômica lida com grandes conjuntos de dados como outras


ômicas, ferramentas computacionais sofisticadas são vitais para análises
eficientes e de alto rendimento, para eliminar tendências sistemáticas e para
explorar descobertas biologicamente significativas.

Os resultados em metabolômica são geralmente ricos em dados, sendo


necessário o uso de ferramentas estatísticas e de bioinformática para avaliação
e sistematização dos dados, em que propriedades bioquímicas e relações

120
Integração das “ômicas” e metabolômica | Unidade V

celulares podem ser mapeadas em plataformas de software que podem reforçar a


interpretabilidade dos dados, por exemplo, o SetupX, que organiza e armazena
os resultados de várias pesquisas em metabolômica.

Tem-se ainda as bases de dados ArMet, que descreve a arquitetura geral para
os estudos com metabolômica, e a MIAMet, que demonstra as considerações
sobre o mínimo de informações de um experimento com metabolômica.

Essas considerações têm sido concretizadas apenas parcialmente em bases de


dados disponíveis, principalmente no que tange à metabolômica de plantas.

Para uma série de compostos vegetais, várias empresas de agrobiotecnologia têm


publicado dados dos metabólitos referentes ao valor nutricional das culturas.

O mais abrangente é o CAS (Chemical Abstracts), que inclui informações


sobre milhões de compostos, dentre eles, metabólitos biogênicos. No entanto,
esse service não apresenta links para bases de dados genômicos, além de ter
elevado custo.

A atribuição das ressonâncias aos metabólitos usualmente emprega informações


disponíveis em bases de dados. Os principais bancos de dados em metabolômica
são mostrados no quadro a seguir..

Quadro 3. Bases de dados em estudos de metabolômica.

Bases de dados Endereço Observações


Database of biochemical, Repositório de dados de metabólitos de
genetic, and genomic metabolic http://bigg.ucsd.edu/. bactérias, leveduras e humanos e vias
network reconstruction (BiGG) metabólicas – ênfase em biologia sistêmica.
Repositório de dados de RMN de
Biological Magnetic Resonance http://www.bmrb.wisc.edu/
macromoléculas (proteínas, peptídeos,
Data Bank (BioMagResBank) metabolomics/.
ácidos nucléicos) e metabólitos.
Kyoto Encyclopedia of Genes http://www.genome.jp/ kegg/kegg1. Base que integra dados genômicos, químicos
and Genomes (KEGG) html. e de biologia funcional.
Listagem de metabólitos com identificadores
Fiehn metabolome database http://fiehnlab.ucdavis.edu/db. (IDs), imagens, sinônimos e conexão com a
base de dados KEGG.
Golm metabolome – Plataforma de dados de EM e abordagens
http://csbdb.mpimp-golm.mpg.de/
Comprehensive Systems Biology experimentais em perfis metabólicos e
csbdb/gmd/gmd.html.
Database bioinformática.
A maior e mais completa base de dados
Human metabolome database http://www.hmdb.ca/.
metabolômicos dedicada à espécie humana.
Base de dados espectrais (EM, FTIR, NIR
NIST spectral database http://webbook.nist.gov/chemistry/. RMN) e de propriedades químicas e físicas de
moléculas.

121
Unidade V | Integração das “ômicas” e metabolômica

Bases de dados Endereço Observações


Banco de dados de genes, enzimas,
Plant Metabolic Network (PMN) http://plantcyc.org/. metabólitos e vias metabólicas primárias e
secundárias de vegetais.
Banco de dados espectrais (EM, EM/EM,
Platform for RIKEN
http://prime.psc.riken.jp/. RMN) e de ferramentas de integração de
Metabolomics (PRIMe)
informações metaboloma/transcriptoma.
Scripps Center for
Metabolomics – METLIN: Repositório de dados de EM em tandem (EM/
http://metlin.scripps.edu/.
Metabolite and Tandem MS EM) e metabólitos.
Database
Spectral Database for Organic Banco de dados integrado de espectros (EM,
Compounds (SDBS) http://sdbs.db.aist.go.jp/. FTIR, Raman, RMN e ressonância de spin
eletrônico – RSE).
Fonte: https://repositorium.sdum.uminho.pt/bitstream/1822/44834/1/document_46661_1.pdf.

Os dados gerados pelas análises metabolômicas são abundantes e complexos e,


por isso, ferramentas adequadas de tratamento de dados devem ser empregadas
no processamento destes para evitar erros e manter a integridade das variações
biológicas inspecionadas.

Para análise metabolômica global, aplicam-se etapas de alinhamento,


agrupamento, correção do tempo de retenção e de linha de base, deconvolução
espectral e normalização.

Existem atualmente diversos softwares livres e licenciados para tratamento


de dados metabolômicos (quadro 4).

Quadro 4. Lista de softwares utilizados em análises metabolômicas.

Nome Aplicação Licença Linguagem


OpenMS Processamento de dados LGPL C++
CDK-Taverna Workflow LGPL Java
Metabonomic Package Análise estatísticas de dados GPL R
MetaXCMS Importação de dados XCMS Livre R e GTK
XCMS Processamento de dados Livre R
Importação de dados de
XCMS2 Livre R
espectrometria de massa
Processamento de dados
MeDDL de cromatografia líquida e Livre Matlab
cromatografia gasosa
MetaScape Analise e visualização de dados Livre Cytoscape
Importação de dados de
MetaboliteDetector GNU GUI
cromatografia gasosa

122
Integração das “ômicas” e metabolômica | Unidade V

Nome Aplicação Licença Linguagem


Processamento de dados de
MAVEN Livre GUI
cromatografia líquida
Alinhamento de dados de
MetAlign cromatografia líquida e Livre GUI
cromatografia gasosa
Processamento de dados de
LIMSA Livre GUI
espectrometria de massa
Processamento de dados de
centWave Livre GUI
cromatografia líquida
Processamento de dados de
mzMine2 Livre GUI
espectrometria de massa
Processamento de dados de
JDAMP Livre GUI
espectrometria de massa
Análise estatística e visualização de
CytoScape Livre GUI
dados
Análise estatística e visualização de
metaP-server Livre Web
dados
Análise estatística e visualização de
MetDAT Livre Web
dados
Alinhamento de dados de
ChromaA espectrometria de massa e Livre Web
cromatografia
MZedDB Processamento de dados Livre Web
Pathway projector Vizualização de vias metabólicas Livre Web
Análise estatística e visualização de
MetPA Livre Web
vias metabólicas
MetExplore Vizualização de vias metabólicas Livre Web
MSEA Vizualização de vias metabólicas Livre Web
Pipeline para processamento
e análise estatística de dados
MetabolomeExpress Livre Web
de cromatografia gasosa e
espectrometria de massa
Alinhamento de dados de
Chromaligner Livre Web
cromatografia líquida
Fonte: Sugimoto et al., 2012.

Já a visualização de dados de estudos de matabolômica pode ser realizada


por meio de heatmaps ou por utilização de mapas de vias metabólicas. Sendo
este último muito utilizado porque facilita na compreensão da mudança ou
resposta metabólica ao ambiente experimental.

Dentre os softwares mais utilizado, tem-se o MetaboAnalyst que faz a


vizualização dos dados experimentais usando o heatmap e oferece ainda
análises estatísticas como PCA, PLS-DA e HCL.

123
Unidade V | Integração das “ômicas” e metabolômica

Outro exemplo é o Pathway Project que visualiza os dados na forma de


gráfico (barra, tempo e círculos simples) correspondendo à concentração de
metabólitos no nó da via metabólica mostrada pelo KEGG.

Ambas as ferramentas aproveitam as funções de zoom e pesquisa da API


do Google Map, que podem ser úteis ao procurar detalhes interessantes em
grandes conjuntos de dados metabolômicos.

A ferramenta de via editável também é útil quando novas interações moleculares


que não estão disponíveis no banco de dados público devem ser exploradas.

Além da padronização do formato de arquivo bruto e das ferramentas de


processamento de dados, a padronização de dados metabolômicos também tem
recebido atenção, pois isso facilita a replicação experimental e a comparação
entre os vários laboratórios de pesquisas.

A Sociedade de Metabolômica formou cinco grupos de trabalho para


estabelecerem diretrizes aos padrões de análise e processamento de dados. Eles
propuseram um conjunto de informações mínimas que devem ser fornecidas
ao relatar as análises químicas: metadados de espectrometria de massa e
ressonância magnética nuclear, protocolos de processamento das amostras,
protocolo de processamento de dados, protocolo de identificação de metabólitos
e até protocolo de identificação de metabólitos desconhecidos.

Para maximizar o valor dos conjuntos de dados metabolômicos, é importante


que os dados sejam disponibilizados publicamente em formatos e com metadados
que sejam amplamente aceitos como padrão.

Nesse sentido, o campo da metabolômica fica atrás da genômica e da proteômica.


Algumas das razões para essa lenta adoção de padrões incluem a heterogeneidade
de plataformas analíticas e fornecedores e a complexidade do processamento
de amostras, que continua sendo o foco das investigações em andamento.

Melhorias nas técnicas de metabolômica permitiram um perfil de metabólitos


com um rendimento mais alto e mais preciso.

A bioinformática que facilita a interpretação da saída desses instrumentos é


essencial para a análise bem-sucedida de grandes aplicações metabolômicas
de conjuntos de dados.

124
Integração das “ômicas” e metabolômica | Unidade V

O desenvolvimento de ferramentas deve acompanhar as melhorias nos


instrumentos analíticos e, portanto, representa um desafio importante, mas
tem grande potencial para agregar valor aos conjuntos de dados metabolômicos.

A metabolômica agora é usada rotineiramente em uma série de aplicações,


incluindo pesquisa básica e clínica, agricultura, microbiologia, ciência
de alimentos, nutrição, pesquisa farmacêutica, ciência ambiental e o
desenvolvimento de biocombustíveis.

Na área farmacêutica, o objetivo inicial é o desenvolvimento de fármacos e a


identificação de um ou mais compostos bioativos. Baseados em um composto
bioativo, os cientistas investigam um grande número de moléculas parecidas
de forma a otimizar as propriedades farmacológicas desejadas.

Para uma busca sistemática, seria muito importante o entendimento de como


as variações nas características estruturais e físico-químicas da família de
moléculas estão relacionadas com suas propriedades farmacológicas.

O problema é que existem muitos descritores diferentes para caracterizar as


moléculas. Eles incluem características estruturais, como natureza e distribuição
dos substituintes; características experimentais, como solubilidade em solventes
aquosos e orgânicos, ou momentos de dipolo; e características calculadas
computacionalmente, como cargas parciais dos átomos.

Esses fatores, sejam eles de caráter eletrônico, hidrofóbico ou estérico,


influenciam na interação do fármaco com a biofase e na sua distribuição nos
compartimentos que compõem o sistema biológico.

Assim, dois fármacos com estruturas químicas semelhantes, diferenciando-se


apenas por um átomo ou posição que este ocupa na molécula, podem apresentar
diferenças quanto às suas propriedades físico-químicas e, consequentemente,
quanto à atividade biológica, tanto do ponto de vista quantitativo como qualitativo.

Como muitos outros ramos das ciências biomédicas, foi impulsionada pelos
avanços da genômica, que conduziram às expectativas de que a segurança
e a eficácia dos medicamentos seriam melhoradas pela personalização da
terapêutica, com base nos dados genéticos.

Para o seu estudo, utilizam-se técnicas genômicas, como o sequenciamento


de DNA, mapeamento genético e a bioinformática para facilitar as pesquisas

125
Unidade V | Integração das “ômicas” e metabolômica

na identificação das bases genéticas da variação interindividual e interracial


na eficácia, no metabolismo e no transporte com fármacos.

A genômica combinada com as ferramentas da bioinformática permite dissecar


as bases genéticas das doenças multifatoriais e tem mostrado pontos mais
convenientes para melhor ação medicamentosa, aumentando o número de
opções moleculares para o tratamento de doenças.

Os bancos de dados mais utilizados na análise da interação de fármacos ou


compostos ativos e outra molécula biologicamente ativa são: KEGG, Drug,
DataBase e PubChem.

Na união entre biotecnologia e metabolômica, o uso do conhecimento é sobre


os processos biológicos e sobre as propriedades dos seres vivos, com o fim de
resolver problemas e criar produtos de utilidade.

Essa união surgiu da necessidade de se suprir as transformações globais que


ocorreram na ciência e no mercado.

Dessa forma, a biotecnologia está intimamente relacionada à inovação


tecnológica, uma vez que propõe o desenvolvimento de novas tecnologias e
produtos, aplicando as informações desenvolvidas na pesquisa.

Nesse contexto, dentro da biotecnologia estão incluídas as pesquisas sobre


transgênicos, genômica, proteômica, terapia gênica, dentre outras, sendo que
para todas essas áreas a bioinformática vem se tornando uma das ferramentas
mais utilizadas.

A bioinformática consiste na análise em bancos de dados e na utilização de


softwares que visam dar novos rumos à pesquisa, analisando dados e simulando
experimentos.

Essa tecnologia propõe novas formas de ciência baseada na experimentação


in silico, em que podemos prever estruturas de proteínas e moléculas, realizar
testes de interação, inibição ou excitação de moléculas, criar inibidores,
moléculas de interferência, dentre outras atividades.

Porém, é fundamental que sejam desenvolvidas pesquisas para alimentar esses


bancos de dados, assim como organizá-los em uma linguagem universal de
forma a facilitar o text mining e data mining.

126
Integração das “ômicas” e metabolômica | Unidade V

Dessa forma, o desenvolvimento da bioinformática está relacionado à


biotecnologia a partir do momento que geramos novos dados e conhecimentos
que podem ser aplicados para o desenvolvimento de novos produtos e soluções.

Para o desenvolvimento da Biotecnologia e, consequentemente, de todas


as tecnologias no Brasil, é necessário que o governo, a universidade e as
empresas percebam esse processo como um sistema multissetorial tecnológico
de inovação que abrange diversos setores econômicos.

Um reflexo disso está na análise dos números de patentes no Brasil que vêm
crescendo nos últimos anos, mostrando um retrato dos avanços tecnológicos
e do domínio de tecnologias que os centros de pesquisa vêm alcançando.

De 2005 até março de 2007, foram realizados 550 depósitos de patentes no Brasil,
sendo que destes os principais depositantes são empresas norte-americanas
e europeias, e apenas 4 entidades brasileiras apresentam um desempenho
considerável na área do meio ambiente.

Talvez o grande problema não seja o baixo avanço tecnológico, mas a falta de
agilidade dos julgamentos dos processos de patente no INPI.

Portanto, é imprescindível conhecer as tecnologias mais avançadas e capacitar


profissionais para o domínio da bioinformática, visto que existe uma tendência
da evolução da economia global baseada na biotecnologia.

As decisões sobre a participação nesse mercado dependem das ações que estão
sendo desenvolvidas no presente, sendo que a interação universidade, empresa
e governo é a base para garantir ao Brasil essa gestão.

A interatômica corresponde ao estudo do conjunto de interações


macromoleculares, físicas e genéticas, e uma das chaves da análise em larga
escala é o alinhamento ou comparação global de duas ou mais redes (alinhamento
múltiplo) para identificar regiões similares.

No estudo interatômico, uma forma de avaliar a qualidade das redes de interação


proteína-proteína é comparando as interações sugeridas com a localização
subcelular ou as classes funcionais da proteína, tais como o Gene Ontology.

A suposição de tal análise é que os integrantes à interação devem pertencer à


mesma categoria, e a validez depende fortemente da escolha das classes.

127
Unidade V | Integração das “ômicas” e metabolômica

Além disso, a co-expressão dos genes correspondentes também é usada como


um critério de avaliação.

Outra forma de validar interações é associar as proteínas dentro de uma


via metabólica. Para isso, existe um banco de dados, também nomeado de
enciclopédia metabólica, chamada KEGG.

Desde 1995 são desenvolvidos métodos bioinformáticos para descobrir


comportamentos sistêmicos de informações bioquímicas e/ou genéticas.

Os resultados são armazenados nesse banco de dados que possibilita pesquisa


básica e aplicação das vias descobertas, como também interações com drogas.

Na busca por domínios e famílias gerais, o banco de dados mais utilizado é


o Pfam. Nele, cada família é manualmente refinada e representada por dois
alinhamentos múltiplos de sequência, dois perfis HMMs e um arquivo de
anotação.

Outro recurso muito utilizado, mas baseado na similaridade da sequência ou


estrutura é o SCOP (Structural Classification of Proteins). Se a intenção é a
busca por domínios específicos, existem bancos de dados disponíveis para os
diferentes tipos, por exemplo, para motif ligante de calmodulina, Calmodulin
Target Database.

Por outro lado, o Interpro (MULDER et al., 2005) realiza buscas contra
diferentes bancos de dados de domínios e famílias de proteínas, integrando
os serviços oferecidos pelo Pfam, Uniprot, PROSITE, SMAR, PANTHER,
PIRSF, SUPERFAMILY PRINTS, ProDom, GENE 3D e TIGRFAMs.

Esse banco de dados combina os diferentes métodos de reconhecimento de


proteínas, e na ausência da caracterização bioquímica, a predição de domínios
pode ser um bom guia em direção à sua função.

O Interpare, da mesma forma que o Interpro, é um banco de dados para busca


de domínios em conjunto com o PDB, SCOP, Uniprot e Swiss-Prot. Contudo,
esse banco de dados também utiliza um método computacional para identificar
sítios de interação e moléculas ligantes, e classifica as proteínas pelos alvos
de interação com drogas.

Na construção das redes interatômicas, os softwares mais utilizados são: String,


Cytoscape, Osprey e HiMAP. A escolha depende do organismo estudado e
também do banco de dados no qual está depositada a sequência estudada, se
NCBI ou Swiss-Prot.

128
Integração das “ômicas” e metabolômica | Unidade V

Além disso, é importante que as redes interatômicas sejam feitas por diferentes
softwares e depois comparadas, para confiabilizar os dados finais.

O objetivo final do interatoma é unir as informações do genoma, proteoma e


metaboloma, gerando informações que auxiliam no entendimento de funções
e ações direcionadas a fármacos e moléculas biologicamente ativas.

129
REFERÊNCIAS

CAO, Y. et al. Digital PCR as an Emerging Tool Monitoring of Microbial Biodegradation.


Molecules, v. 25, n. 3, pp. 706, 1-18, 2020.
CHEN, Q. et al. Transcriptome and proteome analysis of Eucalyptus infected with Calonectria
pseudoreteaudii. J. Proteomics, v. 115, pp. 117-131, 2015.
ESPÍNDULA, F. S. et al. Recursos de bioinformática aplicados às ciências ômicas como
genômica, transcriptômica, proteômica, interatômica e metabolômica. Bioscience Journal,
Uberlândia, v. 26, n. 3, pp. 463-477, maio/jun. 2010.
GAUTHERET, D. et al. Alternate polyadenylation in human mRNAs: a large-scale analysis
by EST clustering. Genome Research, Cold Spring Harbor, US, v. 8, pp. 524-530, 1998.
HAN, Y. et al. Advanced Applications of RNA Sequencing and Challenges. Bioinform.
Biol. Insights, v. 29, 2015.
KIM, K. H. et al. RNA-Seq Analysis of a Soybean Near-Isogenic Line Carrying Bacterial
Leaf Pustule-Resistant and -Susceptible Alleles. DNA Res., v. 18, pp. 483-497, 2011.
MARTIN, J. A.; WANG, Z. Next-generation transcriptome assembly. Nat. Rev. Genet.,
v. 12, pp. 671-682, 2011.
MATTHEWS, B. F. et al. Incorporation of sequence cDNA and genomic markers into
soybean genetic map. Crop Science, Madison, US, v. 41, pp. 516-521, 2001.
MOREIRA, L. M. et al. Ciências Genômicas: Fundamentos e Aplicações. 1. ed. Ribeirão
Preto: Cubo, 2015.
MORETON, J.; IZQUIERDO, A.; EMES, R. D. Assembly, Assessment, and Availability of
De novo Generated Eukaryotic Transcriptomes. Front. Genet., v. 6, 2016.
PROSDOCIMI; SANTOS. Sobre bioinformática, genoma e ciência. Ciência Hoje, v. 35,
n. 209, pp. 54-57, 2006.
PROSDOCIMI, F. Introdução à bioinformática. Revista Biotecnologia Ciência &
Desenvolvimento, 2007, pp. 3-74.
SUGIMOTO, M. et al. Bioinformatics Tools for Mass Spectroscopy-Based Metabolomic
Data Processing and Analysis. Current bioinformatics, v. 7, n. 1, pp. 96-108, 2012.
VELCULESCU, V. E. et al. Serial Analysis of Gene Expression. Science, v. 270, pp. 484-
487, 1995.
VERLI, H. et al. Bioinformática: da biologia à flexibilidade molecular. 1. ed. São Paulo:
SBBq, 2014.
WESTERMANN, A. J.; GORSKI, S. A. VOGEL, J. Dual RNA-seq of pathogen and host.
Nat. Rev. Microbiol., v. 10, pp. 618-630, 2012.
ZAHA, A.; FERREIRA, H. B.; PASSAGLIA, L. M. P. Biologia Molecular Básica. 5. ed.
Porto Alegre: Artmed, 2014.

130
Referências

Sites
http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.
Acesso em: 2 set. 2021.
https://www.tecmundo.com.br/historia/40576-colossus-heroi-de-guerra-e-um-dos-primeiros-
computadores-do-mundo.htm. Acesso em: 2 set. 2021.
https://slideplayer.com.br/slide/8862880/. Acesso em: 2 set. 2021.
https://www.biologiaweb.com/Livro2/Moldes.htm. Acesso em: 2 set. 2021.
https://www.wikiwand.com/en/Northern_blot. Acesso em: 2 set. 2021.
https://www.biomedicinapadrao.com.br/2015/04/hplc-cromatografia-liquida-de-alta.html. Acesso
em: 2 set. 2021.
https://slides.com/lpmor22/qpcr/fullscreen. Acesso em: 2 set. 2021.
https://www.fetalmed.net/o-uso-do-microarranjo-de-dna-em-medicina-fetal. Acesso em: 2 set. 2021.
https://freitag.com.br/blog/o-que-e-a-cromatografia-liquida-de-alta-eficiencia/. Acesso em: 2 set.
2021.
https://www.unifesp.br/reitoria/multiusuarios/equipamentos/paginas-dos-equipamentos/112-
espectrometro-de-massas-maldi-tof-matrix-assisted-laser-desorption-ionization-time-of-flight-
mass-spectrometry. Acesso em: 2 set. 2021.
https://wp.ufpel.edu.br/centralanaliticaquimica/equipamentos/ressonancia-magnetica-nuclear-
rmn/. Acesso em: 2 set. 2021.
http://w2.ifg.edu.br/itumbiara/index.php/noticias/2222-equipamento-quimico-de-cromatografia-
hplcclae-sera-tema-de-palestra-no-campus. Acesso em: 2 set. 2021.
https://repositorium.sdum.uminho.pt/bitstream/1822/44834/1/document_46661_1.pdf. Acesso
em: 2 set. 2021.
https://slidetodoc.com/conceitos-bsicos-de-biologia-molecular-marclio-c-p/. Acesso em: 2 set.
2021. Acesso em: 2 set. 2021.

131

Você também pode gostar