Analise de Dados Omicos Multidimensionais-1

ANÁLISE DE DADOS ÔMICOS
MULTIDIMENSIONAIS
Elaboração
Brenda Neves Porto
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração

SUMÁRIO
APRESENTAÇÃO......................................................................................................................................................... 4
ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA.................................................................................. 5
INTRODUÇÃO.............................................................................................................................................................. 7
UNIDADE I
BIOLOGIA MOLECULAR...................................................................................................................................................................................................... 9
CAPÍTULO 1
GENÉTICA MOLECULAR E CÓDIGO GENÉTICO........................................................................................................................................ 9
CAPÍTULO 2
PROCESSOS DE REPLICAÇÃO, TRANSCRIÇÃO E TRADUÇÃO......................................................................................................... 22
CAPÍTULO 3
SEQUENCIAMENTO............................................................................................................................................................................................ 33
UNIDADE II
FORMATOS BIOLÓGICOS................................................................................................................................................................................................. 50
CAPÍTULO 1
SEQUÊNCIAS NUCLEOTÍDICAS E PROTEICAS....................................................................................................................................... 50
CAPÍTULO 2
REGISTRO DE GENES......................................................................................................................................................................................... 55
CAPÍTULO 3
ESTRUTURAS MOLECULARES TRIDIMENSIONAIS............................................................................................................................. 58
UNIDADE III
ALGORITMOS E ALINHAMENTO................................................................................................................................................................................... 63
CAPÍTULO 1
BANCO DE DADOS............................................................................................................................................................................................... 63
CAPÍTULO 2
ALGORITMOS DE ALINHAMENTO................................................................................................................................................................ 68
CAPÍTULO 3
TIPOS DE ALINHAMENTO................................................................................................................................................................................ 74
UNIDADE IV
ANÁLISE DE DADOS........................................................................................................................................................................................................... 77
CAPÍTULO 1
ANÁLISE DA QUALIDADE DE SEQUÊNCIAS............................................................................................................................................. 77
CAPÍTULO 2
MONTAGEM E COMPARAÇÃO DE DADOS................................................................................................................................................. 84
CAPÍTULO 3
FERRAMENTAS DE VISUALIZAÇÃO.............................................................................................................................................................. 91
REFERÊNCIAS........................................................................................................................................................... 94
APRESENTAÇÃO
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se

entendem necessários para o desenvolvimento do estudo com segurança e qualidade.
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como
pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia
da Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade

dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos
específicos da área e atuar de forma competente e conscienciosa, como convém
ao profissional que busca a formação continuada para vencer os desafios que a
evolução científico-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo

a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na
profissional. Utilize-a como instrumento para seu sucesso na carreira.
Conselho Editorial
4
ORGANIZAÇÃO DO CADERNO
DE ESTUDOS E PESQUISA
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em

capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de
textos básicos, com questões para reflexão, entre outros recursos editoriais que visam
tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta
para aprofundar seus estudos com leituras e pesquisas complementares.
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto
antes mesmo de iniciar sua leitura ou após algum trecho pertinente para
o autor conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma
pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em
seu raciocínio. É importante que ele verifique seus conhecimentos, suas
experiências e seus sentimentos. As reflexões são o ponto de partida para
a construção de suas conclusões.
Sugestão de estudo complementar

Sugestões de leituras adicionais, filmes e sites para aprofundamento do
estudo, discussões em fóruns ou encontros presenciais quando for o caso.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam
para a síntese/conclusão do assunto abordado.
5
Organização do Caderno de Estudos e Pesquisa
Saiba mais
Informações complementares para elucidar a construção das sínteses/
conclusões sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando
o entendimento pelo aluno sobre trechos mais complexos.
Para (não) finalizar

Texto integrador, ao final do módulo, que motiva o aluno a continuar a
aprendizagem ou estimula ponderações complementares sobre o módulo
estudado.
6
INTRODUÇÃO
A utilização de computadores para realizar tarefas em Biologia pode-se dizer

que começou em 1995, quando esses já estavam suficientemente poderosos
para processar os milhões e milhões de letrinhas que passariam a surgir após
o sequenciamento completo de genomas dos mais diversos organismos. Essa
união entre Biologia e Ciência da Computação criou uma área chamada de
Bioinformática.
A bioinformática é multidisciplinar, pois emprega os conhecimentos de

diferentes áreas, como estatística, matemática, informática, biologia, entre
outras. Sua importância está em extrair a informação biológica contida na
sequência de DNA dos organismos utilizando programas de computação por
meio das análises dos dados. Assim, pode-se fazer inferências, realizar conexões
e predições importantes e relevantes nos estudos científicos. Atualmente,
a bioinformática é conhecida como uma ciência aplicada. Por meio dela é
possível comparar as sequências dos genomas dos diferentes organismos já
sequenciados, comparar sequências de genomas desconhecidas em bancos de
dados genômicos, bem como traduzir esses DNAs em sequências de aminoácidos
e buscar sua função para a proteína codificada, às vezes até sua localização
celular e, até mesmo, a via metabólica de que ela participa.
As sequências genômicas são complementadas por outros tipos de dados,

como por exemplo, transcriptoma, proteoma e metaboloma. A potencialidade
para a vida de um organismo está contida em seu genoma, entretanto, é na
proteômica e na metabolômica que se encontram as informações de que se
precisa sobre como os sistemas funcionam.
Para isso, se faz necessário que os dados estejam disponíveis em bancos de

dados públicos e em um formato utilizável.
Atualmente, o crescimento deste volume de informações está longe de parar

e tem muito a acrescentar ao nosso conhecimento sobre o funcionamento
dos sistemas biológicos, potencializando as aplicações tanto terapêuticas
quanto biotecnológicas. A informação, primeiramente, deve ser submetida a
um pipeline de controle de qualidade, anotação e estruturação para torná-la
recuperável.
7
Com base nas informações acima, o objetivo deste material é apresentar e
discutir os pontos mais importantes sobre o que é análise de dados ômicos,
qual a sua importância para a bioinformática e como ela é realizada.
Objetivos
» Apresentar uma visão geral sobre biologia molecular (DNA, RNA e
Proteínas) e seu dogma central (replicação, transcrição e tradução).
» Demonstrar o que é sequenciamento.
» Mostrar os diferentes tipos de sequências biológicas (nucleotídicas e

proteicas).
» Conceituar genes.
» Conhecer as estruturas moleculares tridimensionais.
» Conceituar bancos de dados.
» Demonstrar os diferentes algoritmos de alinhamento de sequências.
» Apresentar como se analisam as sequências.
» Abordar a montagem e comparação de dados.
» Apresentar as ferramentas de visualização.

BIOLOGIA MOLECULAR UNIDADE I
CAPÍTULO 1
Genética molecular e código genético
Desde que o monge austríaco conhecido como Gregor Mendel iniciou seus
experimentos com ervilhas e por meio deles definiu os primeiros conceitos
básicos em genética e suas duas leis, ambos considerados até hoje a base dos
estudos em genética, muitas descobertas foram realizadas e passou-se mais
de um século para que conseguíssemos obter o sequenciamento do primeiro
organismo.
A genética molecular é o ramo da ciência que estuda a biologia ao nível

das moléculas, ou seja, estuda a formação, a estrutura e a função dos ácidos
nucleicos (DNA - ácido desoxirribonucleico e RNA - ácido ribonucleico) e
das proteínas. Os ácidos nucleicos constituem o material genético dos seres
vivos e as proteínas correspondem aos produtos de expressão desse material
genético, observado em seu fenótipo.
A molécula de DNA funciona como um computador que armazena as informações

genéticas e as transmite para outras gerações. Essa transmissão da mensagem
hereditária para as próximas gerações é realizada por meio da replicação.
Já a transmissão da informação para que ocorra a síntese proteica, onde temos

a expressão do gene, é realizada pelos processos de transcrição e tradução.
O DNA, das células dos organismos eucariotos, se encontra no núcleo

enquanto as proteínas são sintetizadas em organelas citoplasmáticas
conhecidas como ribossomos, as quais se encontram no citoplasma das
células eucarióticas. Então, esse transporte da mensagem do núcleo para o
citoplasma é realizado pela molécula de RNA mensageiro (RNAm), o qual
funciona como um CD-ROM.
9
Unidade i | Biologia Molecular
A sequência das bases nitrogenadas na molécula de DNA determinará a

formação dos 20 possíveis aminoácidos que irão constituir as proteínas. Então,
podemos dizer que a sequência das bases nitrogenadas na molécula de DNA
forma o código genético dos seres vivos porque ela fornece um código para
o posicionamento correto dos aminoácidos em uma proteína.
Cada série de três nucleotídeos no DNA especifica um aminoácido na cadeia

proteica, que dá um sinal para o início da cadeia (ATG ou metionina, chamada
de START códon) ou dá um sinal para o término da transcrição (STOP códon).
Ácidos nucleicos
Os ácidos nucleicos são conhecidos também como moléculas informacionais
que participam do fluxo da informação genética. As informações genéticas de
todos os seres vivos estão contidas nos ácidos nucleicos e são submetidas a
processos de replicação, transcrição e tradução para que possam ser expressas
em seu fenótipo.
É o que conhecemos como dogma central da biologia molecular, em que uma

molécula de DNA sofre replicação originando outra molécula de DNA ou
sofre transcrição originando um molécula de RNA. Por sua vez, essa molécula
de RNA sofre tradução e origina as proteínas, as quais vão se manifestar no
fenótipo do indivíduo (figura 1).
Dogma Central da Biologia Molecular.
Replicação
Transcrição Tradução
DNA MRNA Proteína Fenótipo
Transcrição Reversa (cDNA)
Fonte: Zaha et al., 2014.
Os ácidos nucleicos são macromoléculas biológicas de extrema importância,

presentes em todos os seres vivos. Bioquimicamente falando, essas
macromoléculas são polímeros lineares, ou seja, são formadas pela união de
vários monômeros de nucleotídeos ligados entre si por ligações fosfodiéster.
10
Biologia Molecular | Unidade i
Cada nucleotídeo é formado por um ácido, um açúcar e uma base nitrogenada.

O ácido é representado pelo grupamento fosfato, o açúcar, por uma pentose
(possui cinco carbonos em sua estrutura) e as bases nitrogenadas (figura 2).
Figura 2. Estrutura molecular de um nucleotídeo.
Base Nitrogenada
Pentose
Grupo Fosfato
O ácido presente nos nucleotídeos é o fosfato, seja na molécula de DNA ou na

molécula de RNA. É esse ácido que confere carga negativa a essas moléculas.
Cada radical fosfato liga-se ao carbono 3’ OH livre da pentose do último
nucleotídeo da cadeia e isso se repete sempre no sentido 5’ – 3’.
O açúcar presente nos nucleotídeos é uma pentose, a qual pode ou não

apresentar em seu carbono 2’ uma hidroxila (OH), o que vai diferenciar uma
pentose presente em uma molécula de DNA ou uma pentose presente em uma
molécula de RNA.
Quando tem a presença de uma hidroxila (OH) no carbono 2’ da pentose, isso

caracteriza uma molécula de RNA e a pentose é chamada de ribose. Quando
não tem a hidroxila (OH) no carbono 2’ da pentose, isso caracteriza uma
molécula de DNA e a pentose é chamada de desoxirribose.
A pentose faz a ligação entre a base nitrogenada e o grupamento fosfato. Quando

a molécula apresenta apenas o açúcar (a pentose) ligado à base nitrogenada,
sem a presença de grupo fosfato (ácido), temos um nucleosídeo (figura 3).
11
Figura 3. Estrutura molecular de um nucleosídeo.
Base
Nitrogenada
Pentose
Como o açúcar é uma pentose e apresenta cinco carbonos em sua estrutura

molecular, é fundamental saber o que acontece em cada carbono, ou seja, saber
as ligações que ocorrem em cada carbono. No carbono 1’ da pentose liga-se
à base nitrogenada por ligação glicosídica.
No carbono 2’ da pentose liga-se ou não uma hidroxila, ou seja, é nesse

carbono que se faz a diferenciação entre uma molécula de DNA ou de RNA,
como explicado anteriormente.
No carbono 3’ da pentose ocorre a ligação dos nucleotídeos entre si, sempre

no sentido 5’ – 3’ por ligações chamadas de ligação fosfodiéster.
No carbono 4’ da pentose não ocorre nada em especial. E no carbono 5’ da

pentose liga-se o grupo fosfato.
As bases nitrogenadas podem ser púricas ou pirimídicas, ambas presentes nas

moléculas de DNA e RNA. As bases púricas são representadas pela adenina
(A) e guanina (G), ambas presentes tanto na molécula de DNA quanto na
molécula de RNA. Elas derivam das purinas e caracterizam-se por apresentar
dois anéis em sua estrutura molecular (figura 4).
12
Já as bases pirimídicas são representadas pela timina (T), citosina (C) e uracila
(U), derivam das pirimidinas e se caracterizam por apresentar apenas um
anel em sua estrutura molecular (figura 4). A citocina se encontra tanto na
molécula de DNA quanto na molécula de RNA, no entanto, a timina é uma
base nitrogenada encontrada apenas na molécula de DNA, assim como a uracila
é exclusiva da molécula de RNA.
Figura 4. Estrutura das bases nitrogenadas. Acima, estrutura das purinas: Adenina e Guanina. Abaixo, estrutura das
pirimidinas: Timina, Citosina e Uracila.
Adenina Guanina
Timina Citosina Uracila

Existem dois tipos de ácidos nucleicos: ácido desoxirribonucleico (DNA) e o

ácido ribonucleico (RNA). As diferenças estruturais que existem entre eles
estão presentes no tipo de pentose e na composição de bases nitrogenadas
presentes em seus nucleotídeos.
Ácido Desoxirribonucleico (DNA)

A molécula de DNA está presente em todos os seres vivos, sejam eles seres
procariotos ou eucariotos. Nos seres procariotos, a molécula de DNA se
encontra solto no citoplasma da célula, ou seja, não está envolto por uma
membrana nuclear. Já nos seres eucariotos, essa molécula se encontra no
núcleo das células e envolto pela membrana nuclear chamada de carioteca.
O ácido desoxirribonucleico é responsável por armazenar toda a informação

genética de um indivíduo. Por seu um ácido nucléico, essa molécula é formada
13
por um ácido (grupamento fosfato), um açúcar (pentose) e uma base nitrogenada.

O açúcar presente no DNA é uma pentose chamada de desoxirribose, a qual
se caracteriza apenas pela presença de hidrogênio no carbono 2’ da pentose.
Sua estrutura molecular tridimensional foi elucidada em 1953 pelos cientistas

Watson e Crick, graças a estudos anteriores realizados pela química britânica
Rosalind Franklin, por meio dos estudos de difração de raio X, onde ela
comprovou que o DNA apresentava uma estrutura helicoidal dupla. E pelo
bioquímico austríaco Erwin Chargaff, que realizando estudos com cromatografia
provou que em qualquer molécula de DNA, de qualquer espécie, a porcentagem
de bases timina era sempre igual à porcentagem de bases adenina e o mesmo
ocorria para a porcentagem de bases citosina e guanina.
Com base nesses estudos prévios, Watson e Crick mostraram que o DNA é
formado por uma fita dupla, ou seja, é composto por duas cadeias polinucleotídicas
helicoidais, formando uma dupla hélice em torno de um eixo central. Cada
uma dessas fitas ocupa posições opostas, uma fita está na direção 5’-3’e a outra
está na direção 3’-5’, por isso a molécula de DNA é dita antiparalela (figura 5).
As duas fitas são unidas entre si por pontes de hidrogênio entre as bases
nitrogenadas, as quais ficam no interior da hélice, sendo comparadas aos
degraus de uma escada. O pareamento entre as bases é importante para a
manutenção da dupla fita.
As bases nitrogenadas presentes no DNA são as púricas adenina (A) e guanina

(G) e as pirimídicas timina (T) e citosina (C), as quais se ligam entre si por
complementariedade (figura 5). Ou seja, ocorre a ligação entre uma base
púrica e uma base pirimídica. Assim, os únicos pares possíveis são AT e CG.
As bases adenina (A) e timina (T) apresentam duas pontes de hidrogênio

entre si enquanto citosina (C) e guanina (G) apresentam três pontes de
hidrogênio entre si, resultando em uma estabilidade maior do par CG em
relação ao par AT.
A complementariedade da fita do DNA é uma característica fundamental nos

processos de replicação e transmissão das informações genéticas via transcrição
e tradução. (figura 5).
14
Figura 5. Estrutura da molécula do DNA: fita dupla antiparalela e complementar entre si.
3’OH
5’P
Adenina Timina
Citosina Guanina
Timina Adenina
Guanina Citosina
O ácido desoxirribonucleico apresenta três classes principais:
» DNA B: forma clássica da molécula de DNA descrita por Watson e

Crick, encontrada de forma mais abundante nas células. Essa molécula
apresenta algumas características que valem destacar, por exemplo,
sua orientação de direção que é para a direita e a cada 10,4 pares de
bases completa uma volta (figura 6).
» DNA A: apresenta uma estrutura molecular mais grossa e curta

quando comparado ao DNA B, por isso, a fenda maior torna-se mais
estreita e profunda, enquanto a menor, mais larga e rasa. Surge
quando a molécula de DNA B sofre desidratação ou perda de sal. Essa
molécula também apresenta sua orientação de direção para a direita
e o número de pares de bases por volta aumenta para 11 (figura 6).
» DNA Z: surge quando ocorre metilação ou estresse torcional das

bases da molécula de DNA B, fazendo com que a molécula fique
mais longa e fina. Sendo assim, a fenda maior desaparece e a menor
fica mais profunda. A orientação de direção é para a esquerda e uma
volta completa ocorre a cada 12 pares de bases (figura 6).
15
Figura 6. Classes principais da molécula de DNA.

Cavidade menor
Cavidade menor
Cavidade maior
Cavidade menor
Cavidade maior
Cavidade maior
DNA-B DNA-A
DNA-Z
Fonte: Trabuco; Villa, 2006.
Em condições fisiológicas normais, as cadeias complementares do DNA não

se separam espontaneamente, por causa do grande número de pontes de
hidrogênio entre as bases das cadeias complementares. Entretanto, para que
ocorram os processos de replicação, transcrição e tradução, a molécula de
DNA precisa sofrer desnaturação e a renaturação. Esses processos ocorrem
em temperaturas próximas à ebulição, em pH extremos e pela presença de
agentes desnaturantes, como a formamida e o dimetil-sulfóxido, também
conhecido como DMSO.
O processo de desnaturação é reversível e ocorre com o rompimento das pontes

de hidrogênio entre as bases nitrogenadas das fitas do DNA. Quanto maior for
a porcentagem de CG em uma molécula de DNA, maior será a temperatura
necessária para desnaturá-la, pois o número de pontes de hidrogênio entre
essas bases é maior.
16
A desnaturação de uma molécula de DNA pode ser observada pela absorbância

de luz UV utilizando um espectrofotômetro. A medida de absorção de luz UV é
máxima quando as fitas estão completamente separadas e as bases nitrogenadas
expostas ao meio. Essa medida chega a 260nm.
Já a renaturação é o processo inverso, ou seja, é quando as bases nitrogenadas
voltam a se ligar novamente por pontes de hidrogênio devido a sua
complementariedade. O processo de renaturação ocorre quando a temperatura
e o pH voltam ao normal, ou seja, as duas fitas de DNA espontaneamente se
enrolam formando novamente o DNA dupla fita.
Este processo de renaturação envolve duas etapas: uma mais lenta que envolve
o encontro casual das fitas complementares de DNA e outra mais rápida, em
que ocorre a formação das pontes de hidrogênio entre as bases complementares,
reconstruindo a conformação tridimensional.
Ambos os processos ocorrem tanto in vivo quanto in vitro.
Ácido Ribonucleico (RNA)

O ácido ribonucleico, conhecido como molécula de RNA, é responsável por
transcrever a informação genética contida na molécula do DNA, controlando,
assim, quem são os genes que podem ou não se expressarem em determinada
situação por determinado tempo.
A estrutura do RNA foi descrita pelo pesquisador Hoppe-Seyler como uma
molécula, geralmente, fita simples, ou seja, formada por apenas de uma cadeia.
Alguns vírus possuem RNA de fita dupla como genoma.
A molécula de RNA é formada por uma cadeia simples de nucleotídeos e não
uma dupla hélice como a molécula de DNA. No entanto, a molécula de RNA
pode interagir entre si de maneira que as suas bases pareiam uma com as
outras, formando dobras. Dessa maneira, a molécula de RNA pode assumir
uma variedade de formas moleculares tridimensionais complexas.
A forma funcional de fita simples do RNA precisa de uma estrutura terciária
específica. O que providencia essa mudança conformacional é a estrutura
secundária e as ligações de hidrogênio. Isso conduz a vários domínios de
estrutura secundária, como as estruturas em forma de grampos-de-cabelo
(hairpin loops). Como as estruturas de RNA estão carregadas, íons metálicos,
como o Mg2+, são necessários para estabilizar estruturas secundárias e terciárias
do RNA.
17
Os ribonucleotídeos da molécula de RNA também são formados por um

ácido, um açúcar (pentose) e uma base nitrogenada. O ácido, assim como na
molécula de DNA, é o fosfato. A pentose é chamada de ribose por apresentar
a hidroxila (OH) no carbono 2’ e as bases nitrogenadas são as púricas: adenina
(A) e guanina (G) e as pirimídicas: citosina (C) e uracila (U).
O ácido ribonucleico, assim como as proteínas, pode catalisar reações biológicas

importantes. As moléculas de RNA que atuam como proteínas enzimáticas
são conhecidas como ribozimas.
A molécula de RNA é sintetizada a partir de uma molécula de DNA, a qual se

abre em determinado ponto, e nucleotídeos livres vão pareando ao segmento
aberto. Esse processo é chamado de transcrição e apenas umas das fitas da
molécula d DNA serve como molde para sintetizar uma molécula de RNA, a
qual se chama fita sense.
Diferentemente do que acontece com a molécula de DNA, a molécula de RNA

se apresenta de forma variável nas células e com atividade celular dependente
do local e do tempo onde está atuando. Assim também é sua função, que varia
de acordo com as suas diferentes classes.
O ácido ribonucleico apresenta três classes principais:
» RNA Mensageiro (RNAm): transfere a informação genética contida

na molécula de DNA aos ribossomos, onde ocorrerá a síntese das
proteínas. O RNAm é uma cópia do DNA de um gene em especial,
que atravessa a membrana nuclear e alcança os ribossomos.
» RNA Transportador (RNAt): também é conhecido como RNA

de transferência. Transporta as moléculas de aminoácidos até os
ribossomos, onde elas se juntam por ligações peptídicas para formar
as proteínas. Um RNAt é uma molécula relativamente pequena. Em
uma das extremidades liga-se um aminoácido específico; em sua
região mediana há uma trinca de bases, o anticódon. Por meio do
anticódon, o RNAt emparelha-se temporariamente a uma trinca
de bases complementares do RNA mensageiro (RNAm), o códon
(figura 7).
18
Figura 7. Estrutura da molécula do RNA Transportador (RNAt).
Sítio de Ligação
de aminoácidos
Alça D Alça T
Anticódon
Fonte: Griffiths et al., 2016.
» RNA Ribossômico (RNAr): são os componentes majoritários dos

ribossomos, os quais são maquinarias macromoleculares que guiam
a montagem da cadeia de aminoácidos pelo RNA mensageiro e RNA
transportador.
Código genético
O código genético corresponde à relação entre a sequência de nucleotídeos
presentes no DNA e a sequência correspondente de aminoácidos na proteína.
Decifrar o código genético foi uma das maiores conquistas dos últimos anos. Isso
deu-se graças aos estudos realizados pelos pesquisadores Marshall Nirenberg
e Har Gobind Khorana.
A informação genética contida na molécula do DNA é transcrita em uma

molécula de RNA mensageiro. Esse migra para o citoplasma da célula eucariota,
liga-se a um ribossomo e a uma molécula de RNA transportador e, por meio do
19
processo de tradução, utilizando a informação genética contida no DNA mais

a molécula de RNA, o ribossomo sintetiza os aminoácidos para formarem as
proteínas. Essa informação contida no genoma de cada ser vivo é que direciona
o seu desenvolvimento e sua manutenção de vida.
Cada espécie apresenta seu padrão genômico próprio, entretanto, todos

os organismos do planeta usam o mesmo código genético. É devido à essa
universalidade do código genético que se torna o seu uso nas predições de
proteínas utilizando a bioinformática.
O código genético é lido na forma de trincas, ou seja, em grupos de três

nucleotídeos (trinucleotídeos) chamados de códons. Logo, um códon representa
uma sequência de trinucleotídeos que corresponde a um determinado
aminoácido. Existem dois tipos de códons: o códon de iniciação e os códons
de finalização.
Visto que existem quatro diferentes tipos de bases nos ácidos nucleicos e que
são necessários três nucleotídeos (um códon) para codificar um aminoácido,
há 64 combinações diferentes de códons. Sendo 61 códons que representam
aminoácidos e três que causam o término da síntese proteica (UAA, UAG e
UGA). O códon AUG determina o início da síntese proteica, o que significa
que o primeiro aminoácido a ser incorporado em todas as proteínas dos
organismos, tanto procariotos quanto eucariotos, é uma metionina (tabela 1).
As bases dentro do código genético são lidas da esquerda para a direita, em que
A corresponde a adenina, G corresponde a guanina, C corresponde a citosina
e T corresponde a timina. E os aminoácidos estão representados por suas
abreviações, em que Ala corresponde a alanina, Arg corresponde a arginina, Asp
corresponde a asparagina ou ao ácido aspártico, Cys corresponde a cisteína, Gln
corresponde a glutamina, Glu corresponde ao ácido glutâmico, Gly corresponde
a glicina, His corresponde a histidina, Ile corresponde a isoleucina, Leu
corresponde a leucina, Lys corresponde a lisina, Met corresponde a metionina,
Phe corresponde a fenilalanina, Pro corresponde a prolina, Ser corresponde
a serina, Thr corresponde a treonina, Trp corresponde a triptofano, Tyr
corresponde a tirosina e Val corresponde a valina (tabela 1).
20
Por haver um número menor de aminoácidos (20) do que de códons (61), quase
todos os aminoácidos são representados por mais de um códon. Ou seja, um
mesmo aminoácido pode ser codificado por vários códons diferentes. Esse
processo é conhecido como degeneração do código genético. Com exceção
dos aminoácidos metionina (AUG) e triptofano (UGG), todos os outros são
codificados por mais de um códon (tabela 1). Os códons que representam mais
de um aminoácido são chamados de códons sinônimos.
Tabela 1. Código Genético.
21
CAPÍTULO 2
Processos de Replicação, Transcrição e
Tradução
Para que a célula possa iniciar seu processo de divisão celular, ela precisa
duplicar o seu material genético para que assim este material genético seja
dividido de forma igual entre as suas células–filhas. Sendo assim, este processo
de duplicação ou replicação da molécula de DNA ocorre durante a interfase,
quando a célula está se preparando para a divisão celular, mais especificamente
no período S da interfase.
Basicamente, durante o processo de replicação do DNA serão formadas duas

moléculas de DNA, as quais serão formadas por uma fita pertencente à molécula
original e a outra fita recentemente sintetizada, no processo conhecido como
replicação semiconservativa. E à medida que os nucleotídeos são adicionados,
em uma das fitas esse processo ocorre de forma contínua e na outra de forma
descontínua, formando os fragmentos de Okazaki.
Já o processo de transcrição, pode-se dizer resumidamente que é a primeira

de várias etapas da expressão gênica, em que um segmento específico da
molécula de DNA é copiado em uma molécula de RNA. Esse processo é de
extrema importância, pois as informações transcritas para a molécula de RNA
são traduzidas na formação de proteínas.
Para ocorrer o processo de transcrição, a molécula de DNA precisa ser

desnaturada e os nucleotídeos livres de RNA se ligarão a um dos filamentos
da molécula de DNA. A fita de RNA formada irá para o citoplasma da célula
eucariota e as duas fitas de DNA se ligarão novamente.
E o processo de tradução nada mais é que a união dos aminoácidos de acordo

com a sequência de códons do RNA mensageiro (RNAm), que tem sua trinca
complementar no anticódon presente no RNA transportador.
Como a sequência do mRNA é determinada pelo gene (sequência de bases

nitrogenadas do DNA), então a síntese de proteína representa a tradução da
informação genética.
A seguir estudaremos com mais detalhes cada um dos processos citados acima.
22
Replicação
A estrutura da molécula de DNA, apresentada pelos cientistas Watson e Crick,
em 1953, caracterizada por ser uma dupla hélice, revelou como essa molécula
poderia ser replicada.
O processo de replicação do DNA acontece ao longo de toda a molécula,

iniciando em um ponto específico chamado de origem de replicação. Os
organismos procariotos apresentam apenas uma única origem de replicação,
enquanto os organismos eucariotos apresentam várias origens de replicação.
Fato esse explicado pelo tamanho e complexidade de seus genomas. Essas
origens de replicação são caracterizadas por serem regiões no genoma ricas
em sequências AT. Por possuírem apenas duas pontes de hidrogênio entre
essas bases são mais fáceis de serem rompidas e iniciarem o processo.
Início da replicação
O processo de replicação da molécula de DNA inicia-se na origem de replicação

quando as duas fitas se separam devido ao rompimento das pontes de hidrogênio
entre as bases nitrogenadas por meio da atuação da enzima helicase. Cada fita
simples servirá como molde para sua fita complementar, originando assim
uma nova hélice, a qual apresenta uma fita velha que serviu como molde e
uma fita nova que foi sintetizada a partir da fita molde. Segue o modelo de
replicação conhecido como replicação semiconservativa (figura 8).
Figura 8. Replicação Semiconservativa da molécula do DNA.
23
Esse processo segue ao longo de toda a molécula em uma única direção, sendo
chamada de replicação unidirecional, ou segue em direções opostas, quando
duas forquilhas de replicação partem da origem e vão uma para cada lado,
sendo chamada de replicação bidirecional.
Após a ação das helicases para abrir a fita do DNA é necessária a presença
das proteínas SSB nas fitas simples do DNA para evitar com que essa região
sofra torções, repareamento entre as bases e degradação por nucleases. Para
dar início ao processo de replicação, a enzima primase sintetiza um primer
(pequenas sequências de RNA complementar à fita molde) para que assim
as DNA-polimerases possam iniciar a replicação. As novas fitas de DNA são
sintetizadas em direções opostas, ou seja, uma fita é sintetizada de forma
contínua e a outra fita de forma descontínua (figura 9).
Figura 9. Replicação do DNA de forma contínua e de forma descontínua.
Fita molde
Replicação descontínua
Filamento contínuo
Movimento da forquilha
Isso ocorre porque as fitas de DNA possuem sentidos opostos, ou seja,

uma fita está no sentido 5’- 3’ e a outra no sentido 3’ - 5’ e a enzima DNA
polimerase sintetiza apenas no sentido 5’- 3’. Durante a síntese da fita
contínua, a qual possui o sentido 5’- 3’ é necessário apenas um primer inicial
onde a DNA-polimerase se liga e inicia a replicação. Já para a síntese da fita
descontínua, a qual possui o sentido 3’- 5’ são necessários vários primers,
gerando durante o processo de replicação os fragmentos de Okazaki. A
enzima que atua ligando esses fragmentos é chamada de DNA-ligase. Durante
o processo de replicação (figura 10), atuam três tipos de DNA-polimerases:
24
» DNA-Polimerase I: retira os primers dos fragmentos de Okazaki.
» DNA-Polimerase II: corrige os erros da replicação em toda a fita

de DNA.
» DNA-Polimerase III: holoenzima que adiciona os novos nucleotídeos

na extremidade 3’-OH livre da molécula do DNA.
Figura 10. Replicação do DNA de forma contínua e de forma descontínua.
Helicase
SSB
SSB
D Primase
N Primer SSB
A
- D
N
A
-
DNA-pol I
DNA ligase
Síntese fita contínua Síntese fita descontínua

Término da replicação
O término da replicação da molécula de DNA ocorre de maneiras diferentes.

Para os organismos procariotos, que possuem molécula de DNA circular, vai
ocorrer quando as duas forquilhas de replicação, na replicação bidirecional, se
encontrarem ou quando a forquilha de replicação atingir a região da origem
novamente, na replicação unidirecional.
25
Nos organismos eucariotos, que apresentam um genoma linear, na fita que

ocorre a replicação contínua, o término da replicação ocorre de maneira
natural com o final da fita molde. Já na fita onde a replicação ocorre de maneira
descontínua, o término da replicação necessita da presença de sequências
palindrômicas ou sequências teloméricas, as quais permitem um pareamento
na extremidade da molécula do DNA.
Transcrição
A transcrição é o processo pelo qual uma molécula de RNA é sintetizada a

partir das informações contidas em uma molécula de DNA. Entretanto, apenas
uma das fitas do DNA é utilizada como molde durante a transcrição.
A molécula sintetizada de RNA é complementar à fita molde do DNA que lhe

deu origem, chamada de antissenso e idêntica a outra fita de DNA chamada
de senso ou codificadora. Isso ocorre porque a transcrição, assim como a
replicação do DNA, ocorre no sentido 5’- 3’, sendo a fita de DNA que serve
como molde aquela que apresenta o sentido 3’- 5’.
A célula é quem controla quando uma sequência de DNA será ou não transcrita
em um RNA e o quanto deve ser sintetizado. Por isso, existem pontos específicos
nas sequências de DNA para que se inicie e termine uma transcrição.
Esses pontos são conhecidos, respectivamente, como promotor e terminador.

Logo, o processo de transcrição inicia-se com o reconhecimento do promotor
e vai ocorrendo até encontrar o terminador.
O promotor corresponde a uma sequência de bases específicas que é reconhecida

pela enzima RNA polimerase. Essas sequências marcam no genoma as regiões
que são transcritas. O primeiro nucleotídeo da sequência de DNA que é copiado
na molécula de RNA recebe a numeração +1, pois é nesse sítio que se inicia a
transcrição. Os desoxirribonucleotídeos que se localizam antes desse sítio (a
montante) recebem numeração negativa crescente e os que se localizam após
(a jusante) recebem numeração positiva crescente.
É por meio desse processo que são sintetizados todos os RNAs presentes nas
células. Os RNAs recém-sintetizados são chamados de transcritos primários ou
26
pré-RNAs e não formam uma molécula funcional. Para tornarem-se moléculas

funcionais, os RNAs sofrem uma série de modificações pós-transcricionais,
por exemplo, adição, deleção ou troca de nucleotídeos ou até mesmo de regiões
maiores. E esse processamento dos transcritos primários ocorre tanto em
organismos procariotos como em organismos eucariotos.
As alterações mais comuns que ocorrem nos RNAs ribossômicos (RNAr) e nos
RNAs transportadores (RNAt) são as trocas de bases. Já os RNAs mensageiros
(RNAm) dependem do organismo para sofrer ou não processamento. Os
RNAm de procariotos já sofrem tradução antes mesmo que o processo de
transcrição termine e, por isso, não sofrem processamento. Eles são transcritos
e traduzidos simultaneamente.
Por outro lado, os RNAs mensageiros dos organismos eucariotos precisam

passar por um processo minucioso de modificações, uma vez que são produzidos
no núcleo e vão atuar no citoplasma da célula, o qual vai proteger e evitar a
sua degradação até que seja traduzido em uma proteína.
Transcrição em procariotos
Apresenta quatro etapas:
1. reconhecimento do Promotor;
2. início;
3. alongamento;
4. término.
Os procariotos apresentam duas regiões promotoras bem conservadas,

a região -10, conhecida como TATA box e a região -35, as quais são
reconhecidas pela RNA polimerase que inicia o processo de transcrição.
Na fase de alongamento, essa enzima reconhece a fita molde de DNA, pareia
os ribonucleotídeos e os incorpora.
A velocidade com que ocorre o processo de transcrição não é constante, pois

depende da sequência de nucleotídeos que está sendo transcrita. Regiões ricas
em CG reduzem a velocidade, pois esse pareamento possui três pontes de
hidrogênio, sendo mais resistentes à desnaturação.
27
Assim, a etapa de alongamento segue até as sequências específicas de DNA

que determinam seu término.
O fim da transcrição é ativado pela presença do terminador e o RNA

recém-sintetizado participa ativamente do término de sua síntese, formando
estruturas secundárias ou ligando-se a outros fatores. Existem dois mecanismos
de término de transcrição para os organismos procariotos:
1. Terminação Independente: existe uma sequência palindrômica definida

localizada na região 3’ do gene, a qual forma uma estrutura de grampo
de terminação finalizando a transcrição.
2. Terminação Dependente: não existe uma estrutura que determine o

término da transcrição. Depende da presença da proteína ρ (rho), a
qual ativa as sequências espalhadas a determinar o final do processo.
Transcrição em eucariotos
Apresenta quatro etapas:
1. reconhecimento do Promotor;
2. início;
3. alongamento;
4. término.
O reconhecimento do promotor nos organismos eucariotos é realizado pelos

fatores de transcrição (proteínas auxiliares). Existem dois tipos de sequências
reguladoras da transcrição:
1. Elementos Promotores: localizados próximo ao sítio de início da

transcrição (+1) e possuem sequências consenso TATA denominadas
de TATA box.
2. Elementos Reforçadores: ativam a expressão do gene. São sequências

pequenas de DNA que se localizam antes do promotor (a montante)
ou após o terminador (a jusante).
28
Nos eucariotos, o processo de transcrição não é acoplado com o processo de

tradução, como ocorre nos procariotos. Por isso, após a transcrição, os RNAs
processados no núcleo são transportados para o citoplasma onde ocorrerá a
tradução. Porém, antes do término da transcrição, os transcritos primários
sofrem o processamento para se tornarem moléculas funcionais. Como relatado
anteriormente, os RNAr e RNAt sofrem mudanças em suas bases, entretanto,
os RNAm já apresentam um processamento mais complexo que será explicado
no tópico seguinte.
Processamento de RNA mensageiro (RNAm) em eucariotos
Os RNAm são sintetizados no núcleo das células e sofrem uma série de

modificações desde o início de sua transcrição até serem transportados
para o citoplasma. Essas modificações incluem a adição de nucleotídeos nas
extremidades 5’ (cap) e 3’ (cauda poli-A) e a retirada de íntrons (splicing).
Logo após terem sido sintetizados, os transcritos primários de RNAm, ainda no

núcleo das células, recebem em sua extremidade 5’ a adição do cap com função
de proteção definitiva contra as enzimas com ação de degradação encontradas
no citoplasma. Ao mesmo tempo, em sua extremidade 3’ é adicionada uma
cauda poli-A, ou seja, são adicionadas várias bases adenina (A) no final do
RNAm, a qual servirá de proteção temporária porque esta será degradada por
enzimas presentes no citoplasma, evitando a degradação direta do RNAm.
E por fim, ocorre o splicing, ou seja, a retirada das sequências presentes na
molécula de DNA que são transcritas em RNA, mas não são traduzidas em
proteínas, são os chamados íntrons. As bases iniciais CT e as finais AG indicam
o local onde ocorrerá a excisão. A enzima que atua nesse processo é chamada
de ribonucleoproteína (figura 11).
Dessa maneira, tem-se, finalmente, o RNAm maduro ou funcional, pronto

para sair do núcleo e ser levado ao citoplasma onde vai sofrer a transcrição.
29
Figura 11. Etapas do processamento do RNAm em eucariotos.
Éxon Íntron Éxon
gene
Transcrição
Transcrito Primário
Adição do Cap na região 5’ e da cauda Poli A na região 3’.

CAP
AAAA...
Spliciossomo
CAP Splicing
AAAA...
Retirada do Íntron
AAAA... Núcleo
Transporte para Citoplasma

fora do núcleo
RNA mensageiro maduro
Fonte: http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.
Tradução
O processo de tradução, também conhecido como síntese proteica, nada mais
é que a conversão das informações contidas na molécula de RNA mensageiro
em proteínas. E ocorre no citoplasma das células.
Além do RNAm, participam também da síntese proteica: RNA ribossômico

(RNAr), responsável por formar os ribossomos e o RNA transportador (RNAt),
responsável por transportar os aminoácidos que formarão a nova proteína.
Cada RNAt possui uma sequência de três nucleotídeos complementares aos

códons da molécula de RNAm, conhecidos como anticódons. Nos ribossomos,
30
formados pelo RNAr, ocorre a síntese proteica. Essas organelas são formadas
por duas subunidades, uma maior e a outra menor, as quais apresentam vários
sítios onde ocorre a síntese proteica. Sítios A e P relacionados com a síntese
das novas proteínas e o sítio E conhecido como sítio de saída das proteínas
formadas.
Nos organismos procariotos, as unidades menor e maior são conhecidas

como 30S e 50S, respectivamente, que quando associadas formam a conhecida
partícula 70S. Já nos organismos eucariotos, essas subunidades são conhecidas,
respectivamente, como 40S e 60S, que associadas formam a partícula 80S.
A ligação da subunidade menor do ribossomo à molécula de RNA mensageiro,

o reconhecimento do códon iniciador pelo anticódon e a união da subunidade
maior do ribossomo, dão início à tradução.
Pode-se dizer que a tradução apresenta três etapas:
1. início;
2. alongamento;
3. término.
Início da tradução
Em organismos procariotos, para iniciar a síntese proteica é preciso que ocorra

a ligação entre o RNA mensageiro e o ribossomo. Esse local é chamado de
sítio de ligação dos ribossomos (RBS), o qual se caracteriza por apresentar
sequências de iniciação ou códons de iniciação. O códon de iniciação AUG
corresponde à metionina, que em bactérias apresenta um grupamento formil
fazendo com que o RNA transportador iniciador reconheça também GUG e
UUG como códons iniciadores da síntese proteica. Forma-se, assim, o complexo
de iniciação, ou seja, a ligação da subunidade menor no sítio RBS e a adição
da subunidade maior.
O início da síntese proteica em eucariotos começa com o reconhecimento do

cap adicionado na região 5’ do RNA mensageiro, pelos fatores de iniciação.
Forma-se, assim, o complexo de iniciação na extremidade 5’ do RNAm, o qual
percorre essa molécula na direção 3’ até encontrar o códon de iniciação, que
31
nos eucariotos é representado apenas pela metionina (AUG). Em seguida,

após o reconhecimento de AUG, a subunidade maior do ribossomo une-se à
subunidade menor para formar o ribossomo completo e dar continuidade à
segunda etapa, que é o alongamento.
Alongamento da tradução
Nessa etapa, os ribossomos sintetizam as cadeias polipeptídicas por meio dos

fatores de alongamento que adicionam os aminoácidos isoladamente, um a um.
Após a formação do ribossomo completo no processo de início da síntese

proteica, começa a etapa de alongamento. Essa etapa ocorre de maneira contínua,
sendo os aminoacil-tRNAs adicionados no sítio A e o peptídeo localizado no
sítio P. Durante o processo, o ribossomo permanece parado permitindo que o
peptídeo ligado ao RNAt e localizado no sítio P seja transferido para o sítio o
aminoacil-tRNA no sítio A. Depois da formação da ligação peptídica, o RNAt
sem o aminoácido permanece ligado no sítio P e o peptidil-tRNA no sítio A.
Assim, o ribossomo realiza um movimento de translocação avançando três
nucleotídeos no RNA mensageiro, ocorrendo três eventos coordenados:
1. RNAt não carregado é liberado do sítio A;
2. o peptil-tRNA move-se do sítio A para o sítio P;
3. uma nova trinca é exposta no sítio A.
Término da tradução
Essa terceira e última etapa do processo de tradução ocorre com a localização de

um fator de terminação no sítio A (UAG, UGA e UAA), liberação do peptídeo
do RNAt, eliminação do RNAt do ribossomo e a separação das subunidades
do ribossomo.
Organismos procariotos apresentam pelo menos três fatores de terminação

e organismos eucariotos apresentam apenas um.
32
CAPÍTULO 3
Sequenciamento
Desde a descoberta da dupla fita do DNA, vários estudos surgiram com o

objetivo de conhecer o funcionamento de uma célula, as possíveis doenças
em um ser vivo e achar a sua cura. Para tornar isso possível, surgiram várias
técnicas, entre elas o sequenciamento genético.
Por ser uma das moléculas mais estudadas no mundo, o conhecimento sobre
o sequenciamento de DNA é fundamental em qualquer área da biologia,
como: estudos evolutivos e filogenéticos, busca da base genética de doenças,
clonagem gênica e reprodução.
Nos estudos envolvendo patógenos, o sequenciamento é importante para
identificar, diagnosticar e até desenvolver tratamentos para doenças
contagiosas. Ele também é usado para desenvolver produtos e serviços na área
de biotecnologia. E aprimora os estudos de evolução e filogenia, analisando
os seres vivos sequenciados.
Existem diferentes estratégias para se realizar o sequenciamento de DNA,
tudo depende do objetivo de seu estudo. Quando se quer sequenciar o
genoma completo dos organismos, seja ele um procarioto ou um eucarioto,
que apresentam um genoma complexo, a melhor estratégia a ser aplicada é
o Shotgun. Essa estratégia consiste em, primeiramente, fragmentar o DNA
em pedaços menores, sequenciar esses pedacinhos e depois sobrepô-los para
realizar a montagem e obter o genoma completo.
Essa foi a técnica utilizada pela empresa Celera Genomics para sequenciar o
genoma humano. Durante a montagem, uma determinada sequência de DNA,
chamada de read, vai encontrar região de sobreposição com outra read qualquer
da biblioteca. Assim, a sequência correspondente à extremidade da primeira
read também irá se sobrepor a extremidade da outra read. Conhecer a distância
entre as extremidades dos insertos grandes direciona a montagem das regiões
repetitivas, além de ligar e ordenar os conjuntos das reads, conhecidos como
contigs. Esses contigs se unem e formam sequências ainda maiores chamadas
de scaffolds.
Pode-se dizer que a estratégia Shotgun apresenta duas metodologias: Shotgun
Genoma Completo (WGS) e Shotgun Hierárquico. Na primeira, temos o
DNA total do organismo fragmentado, clonado e sequenciado. Fragmentos
grandes são essenciais no processo de montagem, pois permitem identificar
33
e ligar os contigs. Na segunda, também ocorre a fragmentação do material

genético, só que esses fragmentos gerados são grandes e por isso primeiro
precisam ser clonados em BACs para posteriormente serem novamente
fragmentados em pedaços menores e subclonados em plasmídeos. Nessa
estratégia, sequencia-se apenas uma região de interesse.
Sendo assim, podemos dizer que a WGS é uma técnica mais simples, já que
apresenta apenas uma etapa de clonagem e a técnica de shotgun hierárquico
é mais trabalhosa e apropriada para montagem de genomas complexos, que
apresentam muitas regiões repetitivas em seu genoma.
O Primer Walking é outra estratégia utilizada para sequenciar a molécula de

DNA. Aqui sequencia-se o início das extremidades usando primers que anelam
no vetor e dá-se continuidade ao sequenciamento a partir de novos primers
desenhados para o fim das sequências primariamente obtidas. Os primers
devem ser cuidadosamente desenhados, pois a última região sequenciada
deve se sobrepor aos fragmentos sequenciados anteriormente em 100 pares
de bases. Assim, primers que anelam ao vetor são utilizados permitindo o
sequenciamento de uma das extremidades do fragmento de interesse. Um novo
primer capaz de anelar ao fragmento sequenciado é desenhado, iniciando o
sequenciamento de uma região mais distante da extremidade do fragmento.
Esse processo é repetido várias vezes até que toda a extensão dos fragmentos
seja sequenciada (figura 12).
Figura 12. Técnica do Primer Walking.
Vetor Fragmento a ser sequenciado Vetor
Primer 1
2
Primer 2
3
Primer 3
4
Primer 4
Continuação do processo
Fonte: Moreira et al., 2015.
34
Com o passar do tempo e o avanço nas tecnologias e pesquisas, outras abordagens

surgiram para sequenciar somente os genes expressos. Quando falamos em
genes expressos devemos pensar nos RNAs que estão sendo expressos em um
determinado momento do desenvolvimento celular.
A descoberta de novos transcritos, assim como a sua quantificação, é de

fundamental importância para entender os fenômenos biológicos na célula. O
sequenciamento do RNA tem permitido mensurações mais precisas do nível
destes transcritos, entretanto, não é possível sequenciar diretamente o RNA.
A principal razão é a sua instabilidade fora da célula. Tem que, primeiramente,
extrair o RNA e transformá-lo em cDNA.
Para a perfeita execução dessas técnicas, tem-se que ter cuidado para que
não haja nenhuma contaminação com DNA genômico nas amostras de RNA.
E estas devem apresentar uma boa qualidade. Essas metodologias permitem
estudar todo o transcriptoma de uma determinada espécie sem precisar
sequenciar completamente todos os genes que estão sendo expressos. Assim,
essas abordagens têm como vantagem rapidez na obtenção dos dados e redução
de custo.
Técnicas que utilizam essas abordagens são de grande importância porque

permitem descobrir novos genes, novas mutações, identificar polimorfismos,
construir mapas genômicos e estudar a expressão gênica em diferentes condições.
Dentre as estratégias de sequenciamento da molécula de RNA, destaca-se o

sequenciamento de ESTs, a qual consiste em clonar os cDNAs em vetores e
sequenciar suas extremidades.
Podemos utilizar também a produção de bibliotecas de cDNA. Essa estratégia

é muito utilizada para estudar fenômenos biológicos por meio da comparação
de bibliotecas de ESTs entre duas condições diferentes. Podendo, assim, inferir
que aquelas adaptações biológicas se correlacionam com as diferentes expressões
gênicas, ou seja, se um dado transcrito de cDNA aparece várias vezes em uma
biblioteca de ESTs é porque ele se acumulou naquela determinada situação
35
e é importante para o organismo naquele momento. E o contrário também

pode ser pensando, para poucos transcritos expressos, eles devem ser menos
importantes para a mesma situação.
Nessa estratégia podemos sequenciar apenas a extremidade 5’ EST, que

corresponde à região codificadora da proteína, a qual tende a ser conservada
entre as espécies evolutivamente mais próximas, o que facilita a identificação
do gene por homologia.
Apesar do pequeno tamanho, as ESTs permitem identificar os genes que as

originaram (e consequentemente suas funções) utilizando programas que
efetuam busca por identidade/similaridade, tal como o programa denominado
BLAST (Basic Local Alignment Tool).
Bibliotecas de ESTs podem ser utilizadas ainda para comparar tecidos tumorais
com graus diferenciados de um determinado tumor e procurar, assim, por
marcadores de prognóstico de câncer.
Outra estratégia também usada para o sequenciamento da molécula de RNA

é chamada Orestes. Essa estratégia foi desenvolvida no Brasil com o objetivo
de sequenciar as regiões internas dos genes, ou seja, sequenciar o local onde
se concentra a informação referente à região codificadora das proteínas.
Nesta técnica, após a produção dos cDNAs, usam-se primers degenerados

aleatórios (misturas de variados oligonucleotídeos) num passo de amplificação
por PCR antes da sua clonagem e sequenciamento deles, se tornando mais
eficiente do que a técnica citada anteriormente.
Esta metodologia tem como vantagem a normalização da população de genes

expressos, permitindo que genes raros ou poucos expressos sejam mostrados.
Muitas das vezes, utilizam-se sequências oriundas desta abordagem juntamente
com ESTs, com a finalidade de obter contigs maiores que permitem uma melhor
identificação (anotação) do transcrito.
As primeiras metodologias de sequenciamento surgiram no final da década

de 1970 e assim como as tecnologias aplicadas em ciência, elas também foram
36
evoluindo. O que no início era um sequenciamento manual com poucos

kilobases, tornou-se nos dias de hoje um sequenciamento de genomas inteiros
dos seres vivos, em um curto espaço de tempo.
O primeiro método de sequenciamento foi criado pelos pesquisadores Allan

Maxam e Walter Gilbert, o qual se baseia na quebra da molécula de DNA por
meio de radioisótopos, por isso ficou conhecido como método químico.
Alguns anos depois, em 1977, Frederick Sanger cria um método diferente de

sequenciamento, o qual envolve a produção de muitas cópias da molécula de
DNA utilizando enzimas. Nesse método, uma molécula de DNA cuja sequência
deve ser determinada é convertida em fitas simples que são utilizadas como
molde para sintetizar uma série de fitas complementares. Cada uma dessas
fitas termina aleatoriamente em um nucleotídeo específico diferente. A série
resultante de fragmentos de DNA é separada por eletroforese e analisada para
revelar a sequência do DNA. Por isso, esse método ficou conhecido também
como método Sanger, método didesoxi, método de terminação de cadeia ou
ainda método enzimático.
O método Sanger se tornou altamente aplicável e é utilizado até os dias

atuais. A partir dele foram surgindo outros métodos de sequenciamento mais
modernos e robustos para suportar a demanda dos estudos.
De maneira geral, o sequenciamento nada mais é que uma técnica que permite
identificar a sequência de nucleotídeos, na ordem correta, em uma molécula
de DNA ou RNA, objetivando conhecer as informações genéticas ali contidas.
Segundo Nierman et al. (2000), o sequenciamento seguido de uma boa estratégia

de montagem nos fornece conhecimento sobre a estrutura e função de genes,
expressão gênica, diversidade genética, relações evolutivas, presença de
elementos transponíveis, construção de mapas metabólicos, entre outras.
As tecnologias de sequenciamento estão separadas em dois grupos:

sequenciamento em pequena escala e o sequenciamento em larga escala.
37
Sequenciamento em pequena escala
As tecnologias de sequenciamento em pequena escala surgiram em 1977,

baseadas em hidrólise química e reações enzimáticas. A primeira foi desenvolvida
pelos pesquisadores Alan Maxam e Walter Gilbert e a segunda, por Frederick
Sanger. Essas tecnologias permitiram determinar a sequência de nucleotídeos
de DNA e revolucionaram as pesquisas científicas da época, tornando-se a
base dos estudos de genômica usada atualmente.
Essas tecnologias ficaram conhecidas como Sequenciamento de Primeira

Geração. Eram processos pouco escaláveis, extremamente demorados e restritos
a análises de sequências de RNA.
Método Maxam-Gilbert
O método de sequenciamento de Maxam-Gilbert também é conhecido como

sequenciamento químico por utilizar fósforo radioativo (P 32) para marcar o
DNA alvo a ser sequenciado. Essa técnica consiste na clivagem do DNA alvo
marcado com o P 32 por meio da utilização de compostos químicos em posições
específicas. A posição a ser clivada depende do composto químico que foi
adicionado. (MAXAM; GILBERT, 1977).
Primeiramente, adiciona-se o P 32 radioativo em uma das extremidades da

molécula do DNA após a separação da dupla fita. A seguir, esse DNA marcado é
colocado em quatro diferentes tubos onde será clivado utilizando-se compostos
químicos, os quais farão a da quebra da molécula de DNA em posições
específicas: antes dos Gs, antes dos G ou A, antes de C ou T e antes de C. No
final, tem-se um conjunto de fragmentos de tamanhos diferentes em cada
um dos quatro tubos. Para identificar a sequência desses fragmentos gerados,
aplica-se o produto dessas quatro reações em canaletas diferentes do gel. As
bandas geradas após a “corrida” em gel são visualizadas após a impressão de
uma chapa radiográfica, e a determinação da sequência de nucleotídeos é feita
pela leitura de baixo para cima de cada uma dessas bandas que representam
os nucleotídeos (figura 13).
38
Figura 13. Metodologia de sequenciamento Maxam-Gilbert.
5’ 3’
DNAaaser
DNA sersequenciado
sequenciado
3’ 5’
5’ 3’
Desnaturação das fitas
3’ 5’
Adição de P32
5’ 3’ na extremidade
5’
DNA molde adicionado em

cada um dos tubos: G,
G/A, C/T e C (da esquerda
para a direita).
G G/A C/T C
5’ AGTAAGTTAGCCTCAGT 3
Método Sanger
O método de sequenciamento de Sanger também é conhecido como método

didesoxi ou método terminador de cadeia. Esse método consiste em marcar
radioativamente com P 32 ou S 35 alguns desoxinucleotídeos livres, que após
serem incorporados na nova cadeia de DNA emitem radiação, a qual é usada
para impressão de uma chapa radiográfica, permitindo, assim, visualizar os
fragmentos.
Essa metodologia de sequenciamento ocorre da seguinte maneira: primeiramente

o DNA é desnaturado e usado para montar quatro diferentes reações em cadeia
da polimerase (PCR) em tubos distintos. Nesses tubos são adicionados todos os
reagentes de uma PCR (DNA molde, DNA polimerase, primer, solução tampão
com magnésio e os desoxinucleotídeos) e mais os didesoxinucleotídeos, que
atuam como terminadores da síntese de DNA.
39
Esses didesoxinucleotídeos se diferenciam dos desoxinucleotídeos por não

apresentarem a hidroxila (OH) na extremidade 3’ de sua pentose, impedindo
a adição de outros nucleotídeos à molécula de DNA. Ou seja, toda vez que um
didesoxinucleotídeo é incorporado à nova molécula de DNA, a síntese para,
formando fragmentos de diferentes tamanhos.
O tamanho de cada fragmento depende do local onde o didesoxinucleotídeo

foi adicionado. Após os vários ciclos da PCR, as amostras dos respectivos
tubos contendo os seus respectivos didesoxinucleotídeos são aplicadas em
diferentes canaletas no gel e as bandas produzidas são visualizadas em uma
chapa radiográfica. Para determinar a sequência de nucleotídeos da fita de
DNA recém-sintetizada, a leitura é realizada de baixo para cima (figura 14).
Figura 14. Metodologia de sequenciamento Sanger.
5’ 3’
3’
DNA a ser sequenciado
5’
5’ 3’
3’ 5’
Adição do oligonucleotídeo
5’ 3’
marcado com P32
Mix PCR
G C A T
40
Com o passar dos anos, essa tecnologia de sequenciamento foi aprimorada,

tornando-se mais rápida e segura, passando a ser conhecida como Método
Sanger Semiautomatizado. O princípio continuou o mesmo, o que mudou
foi a adição de corantes aos didesoxinucleotídeos, que emitem fluorescência
característica quando excitados.
A utilização desses fluoróforos diferentes para cada um dos quatro diferentes

didesoxinucleotídeos fez com que as reações, que antes ocorriam de maneira
separada, passassem a ocorrer todas juntas em um único tubo, e o resultado
dessa reação passou a ser aplicado em uma única canaleta. Aumentou-se,
assim, o número de amostras analisadas por corrida.
Um exemplo de sequenciador que usa esse método é o ABI 377. Por volta dos
anos de 1990, o sequenciamento de Sanger tornou-se automatizado, ou seja,
os géis foram substituídos por capilares onde as amostras são aplicadas por
eletroinjeção. Depois da molécula do DNA sofrer desnaturação, incorporação
dos didesoxinucleotídeos marcados com fluoróforos à fita de DNA recém-
sintetizada, os fragmentos de DNA agora são aplicados em capilares, por meio
de um sistema de eletroinjeção e começam a migrar até encontrar um feixe
de raios laser que os excita, fazendo com que eles emitam sua fluorescência
característica. O próximo passo é, então, registrar essa fluorescência emitida
por meio de um detector, o qual transmite a um computador que possui um
software capaz de converter essas fluorescências em um cromatograma, que
nada mais é que a sequência de nucleotídeos presente no fragmento (figura 15).
Esse método de sequenciamento passou a ser utilizado para o desenvolvimento

dos projetos genomas de organismos com grande relevância para a pesquisa
básica e aplicada, por exemplo, o Homo sapiens (ser humano), Caenohabditis
elegans (verme), Escherichia coli (bactéria) e o Oryza sativa (arroz).
Entre os sequenciadores que utilizam capilares encontram-se: MegaBase, ABI

Prism 3700 e o ABI Prism 3100.
41
Figura 15. Metodologia de sequenciamento automatizado de Sanger.
5’ 3’
3’ DNA a ser sequenciado
5’
5’ 3’
3’ 5’
5’ 3’ Anelamento do oligonucleotídeo
Mix PCR
ddATP/ddGTP
ddCTP/ddTTP
Eletroinjeção
Cromatograma
da amostra
nos capilares
Detector
Laser
Apesar dessa tecnologia sequenciar fragmentos maiores (até 1Kb) e suportar até
96 amostras por vez, era extremamente cara e, por isso, buscou-se desenvolver
outras tecnologias que apresentassem menor custo e maior capacidade de
sequenciamento.
Sequenciamento em larga escala

As tecnologias de sequenciamento em larga escala surgiram em 2001, após
a publicação do draft do genoma humano (VENTER et al., 2001). E ficaram
conhecidas também como Sequenciamento de Nova Geração (Next Generation
Sequencing – NGS), culminando com os sequenciadores de segunda geração.
42
A empresa Roche foi a primeira a desenvolver as tecnologias voltadas para

um sequenciamento em larga escala. A partir daí, outras tecnologias foram
surgindo, como exemplo, as plataformas lon Torrent, SOLID e Illumina.
Plataforma 454
Essa metodologia de sequenciamento foi criada pela empresa Roche, que

implementou nas máquinas a tecnologia de pirossequenciamento. Essa nova
tecnologia dispensa clonagem, tem baixo custo e é cerca de até 100 vezes mais
rápida quando comparada ao sequenciamento automatizado de Sanger.
Resumidamente, pode-se dizer que essa técnica de pirossequenciamento se

baseia em uma cascata enzimática para detectar o processo de amplificação
da molécula do DNA por meio da liberação de pirofosfato. É dividida em três
etapas: preparo da amostra, PCR em emulsão (ePCR) e sequenciamento.
Durante a etapa de preparação da amostra o DNA é clivado aleatoriamente

e os fragmentos gerados são ligados a adaptadores nas suas extremidades.
Posteriormente, esses fragmentos são selecionados e fixados em microesferas
magnéticas (beads), onde acontecerá a amplificação deste fragmento (ePCR).
Na última etapa, essas beads são colocadas em uma placa, onde serão realizadas
as reações de sequenciamento. Cada poço da placa recebe uma única beads.
Em seguida, são adicionados também os outros reagentes necessários para
que ocorram essas reações. A cada ciclo, uma base diferente é adicionada pelo
sequenciador e um pirofosfato é liberado, sendo convertido em ATP pela
enzima ATP-sulfurilase, que por sua vez é consumida pela enzima luciferase,
resultando na liberação de luz. Essa luz é convertida em pirogramas, em que
a sua interpretação permite identificar a sequência de nucleotídeos presentes
(figura 16).
43
Figura 16. Metodologia de sequenciamento 454.
Fragmentos
com
Adaptadores adaptadores
selecionados
Fragmentos com
A adaptadores Biblioteca de DNA
Genoma Genoma Fragmentado fita simples
Reagentes
PCR
Reação Eliminação
PCR da gotícula
BEADS
B Gotícula de gordura Amplificação Enriquecimento

DNA das beads
Adição de Pirossequenciamento
Reagentes
Beads aplicadas nas Determinação da

placas especializadas sequência
(uma bead por poço)
Plataforma Ion Torrent
Criada pela empresa Life Technologies, essa nova metodologia de sequenciamento

realiza o processo em um chip que detecta a amplificação da molécula de DNA
por meio de micros sensores de pH a partir da liberação de íons H+ que são
liberados durante a incorporação das bases.
44
Da mesma forma que na plataforma 454, o Ion Torrent apresenta três etapas
de sequenciamento, iniciando pelo processo de preparação da amostra, onde
ocorre a fragmentação da molécula de DNA e a ligação de adaptadores aos
fragmentos gerados. A reação de ePCR, com a ligação dos fragmentos a beads
onde irá ocorrer a amplificação desses fragmentos, é a etapa final, que é o
sequenciamento. Esses produtos de amplificação são colocados em um chip de
sequenciamento, em que a cada ciclo quando uma base é adicionada, o sensor
presente nesse chip detecta íons H+ liberados.
Plataforma SOLID
Atualmente essa metodologia de sequenciamento pertence também à Life

Technologies, mas foi criada pela empresa Applied BioSystems (ABI). É
conhecida como Sequenciamento por Ligação e Detecção de Oligonucleotídeo
(Sequencing by Oligonucleotide Ligation and Detection – SOLID).
Essa técnica baseia-se na utilização de sondas fluorescentes para realizarem

o sequenciamento, sendo duas conhecidas e seis degeneradas, na presença da
enzima DNA ligase.
Da mesma forma apresentada acima para as outras plataformas, a plataforma

SOLID também possui um processo de preparo da amostra a ser sequenciada,
PCR em emulsão e o sequenciamento propriamente dito. Primeiramente, a
molécula é clivada gerando vários fragmentos, os quais são ligados a adaptadores.
Posteriormente, fragmentos são ligados a beads para serem amplificados por
meio do ePCR. E finalmente, por meio da hibridização de sondas, ocorre o
sequenciamento.
No primeiro ciclo do sequenciamento, a enzima DNA ligase insere as cinco

primeiras bases ao fragmento que será estendido, removendo as últimas
três. Essa remoção resulta na liberação de um fluoróforo que é detectado
por um laser. Isso se repete até que o fragmento molde seja todo coberto
pelas sondas.
45
Essa plataforma é utilizada para sequenciamento de genomas inteiros,

ressequenciamento de regiões de interesse, experimentos que envolvem
imunoprecipitação de cromatina, análise de expressão gênica e análise de
pequenos RNAs.
Plataforma Illumina
Essa plataforma pertence à empresa de mesmo nome, Illumina, a qual utiliza

uma metodologia de sequenciamento de DNA conhecida como Sequenciamento
por Síntese (Sequencing by Synthesis – SBS).
Como em todas as outras metodologias citadas acima, de sequenciamento de

segunda geração, antes de a amostra ser sequenciada, é preciso prepará-la.
Sendo assim, ela é clivada em vários fragmentos de diferentes tamanhos, esses
fragmentos são selecionados e a eles ligados adaptadores em suas extremidades.
A diferença é que aqui nessa plataforma, essas bibliotecas criadas são de dois
tipos: paired-end e mate-pair. Ambas proporcionam o sequenciamento nas
duas extremidades do fragmento, entretanto, na primeira são geradas reads
de 200 a 500 nucleotídeos e na segunda, as reads geradas ficam entre 2000 a
5000 nucleotídeos.
Esse método de sequenciamento utiliza o princípio apresentado pelo

sequenciamento de Sanger automatizado, em que a síntese ocorre em uma fita
complementar ao alvo com o auxílio da enzima DNA polimerase e nucleotídeos
terminadores marcados com fluoróforos diferentes. Após a etapa de preparação
da amostra, os fragmentos selecionados são colocados em uma placa de vidro
por meio do pareamento entre o seu adaptador e o DNA complementar presente
na superfície. Em seguida, ocorre a etapa de amplificação desses fragmentos
originando os clusters (aglomerado de moléculas com a mesma sequência),
os quais são utilizados como molde pela DNA polimerase no processo de
sequenciamento. Esse processo de sequenciamento ocorre em ciclos, onde
em cada ciclo é adicionado um nucleotídeo diferente e quando ocorre a sua
incorporação é liberado um fluoróforo, o qual emite luz, que é captada por
um sensor e decodificada na sequência de interesse (figura 17).
46
Figura 17. Metodologia de sequenciamento da plataforma Illumina.
Explicando detalhadamente o que ocorre na figura 17: Em (A) ocorre a

fragmentação do DNA a ser sequenciado com posterior seleção dos fragmentos
de tamanho apropriado e ligação de adaptadores em ambas as extremidades. Em
(B), estes fragmentos são colocados em uma placa de vidro (flowcell) densamente
povoada por adaptadores complementares aos adaptadores contidos nas
extremidades dos fragmentos, de maneira que os fragmentos possam, então, se
ligarem à placa. Em (C), ocorre a incorporação de nucleotídeos não marcados
com fluorescência até que toda a extensão do fragmento seja amplificada. Em
(D) tem-se a formação da estrutura em ponte, que dá nome ao processo de
amplificação (amplificação em ponte) evidenciando dois adaptadores presos a
placa e outros dois livres. Em (E) ocorre a desnaturação do duplex. Em (F) os
adaptadores livres se ligam a adaptadores complementares na placa, iniciando
um novo ciclo. Em (G), temos o cluster sendo formado, o qual provavelmente
conterá mais de um milhão de cópias do mesmo fragmento. Em (H) adicionam-se
os quatro tipos de didesoxinucleotídeos terminadores reversíveis contendo
47
fluoróforos, junto com a enzima DNA polimerase, que fará a incorporação do

didesoxinucleotídeo apropriado. A incidência de um feixe de raios laser excita
os fluoróforos, proporcionando emissão de luz que difere em função da base
incorporada. Em seguida, efetua-se uma etapa de lavagem para remoção do
grupo bloqueador presente na extremidade 3’ junto com o fluoróforo; fato este
que permitirá a incorporação do segundo nucleotídeo. Esses ciclos se repetem
até que toda a extensão do DNA seja polimerizada. Em “I” ocorre o registro da
imagem correspondendo à incorporação do primeiro didesoxinucleotídeo. “J”
e “K” representam sucessivos ciclos de incorporação de didesoxinucleotídeos
marcados, incidência de raios laser, emissão de luz e registro da imagem.
Por fim, em “L”, as imagens registradas em cada ciclo são decodificação para
determinar a sequência de bases de cada cluster na placa.
Dentre os sequenciadores que utilizam essa metodologia estão o MiSeq e o

HiSeq. O primeiro é usado para sequenciar genomas pequenos, como genomas
de microrganismos e estudos de 16S, 18S e ITS microbianos. Já o Hiseq possui
uma maior capacidade, lê fragmentos menores e é mais rápido, sendo utilizado
nos estudos de RNA-Seq e exoma.
Por produzirem leituras pequenas de 30 pares de bases, essas plataformas de

sequenciamento de segunda geração passaram a ser conhecidas pelo termo
short-reads (leituras curtas). No entanto, esse processo torna a montagem de
genomas e de transcritos longos extremamente complexo e por isso foi preciso
desenvolver plataformas que utilizassem long-reads (leituras longas).
Essas plataformas são conhecidas como sequenciamento de terceira geração

e destacam-se a PacBio e Nanopore.
Plataforma PacBio
A empresa Pacific Biosciences lançou, em 2010, a plataforma PacBio RS, que

utiliza uma tecnologia de sequenciamento chamada SMRT Analysis, a qual se
baseia na detecção natural da síntese de DNA por meio de uma única DNA
polimerase. O processo de síntese começa com a introdução de nucleotídeos
marcados com diferentes fluoróforos coloridos. A incorporação de fosfato
marcado é base-específico. Quando uma base é detectada, a fluorescência
é emitida como um pulso de luz e detectada em tempo real. A reação de
sequenciamento só termina quando ocorre a dissociação entre a DNA polimerase
e a fita molde (ROBERTS et al., 2013).
48
Esse equipamento gera vários milhões de kilobases e long reads (20kb) por
corrida, sendo uma plataforma ideal para a montagem de genomas. Para
melhorar a qualidade da leitura das sequências e diminuir a taxa de erro, a
Pacific Biosciences desenvolveu uma estratégia de sequenciamento consenso
circular (CCS), que se baseia na estrutura circular das moléculas das bibliotecas
da PacBio. A estrutura circular permite um sequenciamento contínuo e repetido
de cadeia no sentido sense e anti-sense, que pode ser usado para gerar uma
única read consenso com precisão muito elevada (> 99%). Essa alta precisão
é útil em metagenômica e especialmente em projetos de sequenciamento, de
novo, uma vez que impede a superestimativa da diversidade biológica devido a
erros de sequenciamento, a PacBio RS II, atualmente, utiliza a química C3/P5
para realizar o sequenciamento. Isso proporciona os maiores comprimentos
de leitura (em torno de 8.500 bases) e o maior número de leituras por corrida
(cerca de 16kb) obtidas com boa qualidade. (KNIEF, 2014).
Plataforma Nanopore
Essa plataforma é comercializada pela empresa Oxford e seu grande diferencial

é o tamanho do equipamento, que é muito reduzido, seu baixo custo e a
capacidade de sequenciar fragmentos com qualquer tamanho.
A amostra é sequenciada a partir da análise do sinal elétrico gerado quando

ela é colocada em um nanoporo.
49
FORMATOS
BIOLÓGICOS UNIDADE II
CAPÍTULO 1
Sequências nucleotídicas e proteicas
Embora os seres vivos apresentem enormes diferenças em suas características

fenotípicas, analisando desde bactérias, fungos, vegetais e animais,
genotipicamente são compostos pelo mesmo tipo de moléculas: carboidratos,
lipídeos, proteínas e ácidos nucleicos.
Essas macromoléculas biológicas ou biomoléculas são polímeros lineares

formados pela união de vários monômeros que podem ser monossacarídeos,
aminoácidos e nucleotídeos.
Os ácidos nucleicos, representados pelas moléculas de DNA e RNA, são

também chamados de sequências nucleotídicas e são formados pela união de
vários nucleotídeos ligados entre si por ligações fosfodiéster. Cada nucleotídeo
é formado por um ácido, um açúcar e uma base nitrogenada. O ácido é
representado pelo grupo fosfato, o açúcar é uma pentose (possui cinco carbonos
em sua estrutura) podendo ser a ribose, se for uma molécula de RNA ou uma
desoxirribose, se for uma molécula de DNA e as bases nitrogenadas podem
púricas ou pirimídicas. As bases púricas são representadas pela adenina (A) e
guanina (G). Elas derivam das purinas e caracterizam-se por apresentar dois
anéis em sua estrutura. Já as bases pirimídicas são representadas pela timina
(T), citosina (C) e uracila (U), derivam das pirimidinas e se caracterizam por
apresentar apenas um anel em sua estrutura.
Já as proteínas são polímeros formados pela união de vários aminoácidos

ligados entre si por ligações peptídicas. São as biomoléculas mais versáteis
apresentando uma gigantesca possibilidade de arranjos tridimensionais.
Correspondem também ao principal produto da informação genética a partir
do processo de tradução.
50
Formatos Biológicos | Unidade II
O genoma codifica apenas 20 aminoácidos, os quais possuem características

bem definidas, como a presença do grupo amino, a presença do grupo do
ácido carboxílico, a presença de uma cadeia lateral, a qual é responsável por
dar nome ao aminoácido e a presença de um carbono alfa (Cα) assimétrico.
Esse carbono é dito carbono alfa (Cα) porque está ligado diretamente aos
grupos funcionais, que no caso de um aminoácido são os grupos amino e ácido
carboxílico. E assimétrico porque apresenta quatro ligantes diferentes, que
nesse caso, são o grupo animo, o grupo do ácido carboxílico, a cadeia lateral
e um átomo de hidrogênio.
Apenas os aminoácidos levógiros formam as proteínas, ou seja, apenas

os aminoácidos que desviam a luz para a esquerda formam as proteínas.
Essa propriedade de desviar a luz para esquerda ou direita se encontra nas
propriedades ópticas dos átomos. São os chamados enantiômeros, compostos
idênticos, que correspondem a imagens especulares, diferindo apenas no
arranjo de seus átomos no espaço.
Os aminoácidos são também classificados de acordo com a sua carga em

apolares e polares. Os aminoácidos apolares ou hidrofóbicos não possuem
carga e se dividem em dois grupos: os aromáticos (que possuem em sua
estrutura molecular o anel aromático ou anel benzênico) e os alifáticos. E os
aminoácidos polares ou hidrofílicos, que se dividem em básicos ou positivos
e em ácidos ou negativos.
Didaticamente, pode-se dizer que essas sequências biológicas apresentam

quatro níveis diferentes de complexidade em sua estrutura. Isso facilita a
nossa compreensão das funções específicas desempenhadas por elas. Esses
níveis apresentam uma relação de hierarquia entre eles, ou seja, a informação
de um nível é necessária para a formação do próximo.
O nível inicial, também conhecido como nível primário ou estrutura primária,

representa a sequência linear dos monômeros. Logo, para os ácidos nucleicos
(DNA e RNA) é a sequência de nucleotídeos e para as proteínas é a sequência
de aminoácidos (figura 18).
51
Unidade II | Formatos Biológicos
Figura 18. Estrutura primária de ácidos nucleicos e proteínas.
DNA:
GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGTTACCCGCGTTGAT
CTCGTGGATAAAACGCAAACGCCACAG
RNA:
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGGGUUACCCGCGUUG
AUCUCGUGGAUAAAACGCAAACGCCAACAG
Aminoácidos:
GIGAVLKVLTTGLPALISWIKRKRQQ
Fonte: Verli et al., 2014.
A partir da sequência primária, surgem interações entre os monômeros

vizinhos que dão origem aos padrões repetitivos de organização espacial,
os chamados níveis secundários ou estruturas secundárias. Na molécula de
DNA, as estruturas secundárias resultam de diferenças nas propriedades
estruturais, como na largura e profundidade das fendas maior e menor e na
direção da orientação. Os tipos encontrados em condições fisiológicas são:
DNA A, DNA B e DNA Z. O DNA B é a forma clássica da molécula descrita
por Watson e Crick, encontrada de forma mais abundante nas células. Essa
molécula apresenta algumas características que vale a pena destacar, por
exemplo, sua orientação de direção que é para a direita e a cada 10,4 pares de
bases completa uma volta (figura 19).
O DNA A surge quando ocorre uma desidratação ou perda de sal na molécula

de DNA B. Apresenta uma estrutura molecular mais grossa e curta, onde a
fenda maior se torna mais estreita e profunda, enquanto a menor mais larga
e rasa e o número de pares de bases por volta aumenta para 11 (figura 19).
E a formação do DNA Z surge quando ocorre metilação ou estresse torcional

das bases, fazendo com que a molécula fique mais longa e fina. A fenda maior
desaparece e a menor fica mais profunda e uma volta completa ocorre a cada
12 pares de bases (figura 19).
52
Figura 19. Estruturas secundárias da molécula de DNA.
DNA - B DNA - A DNA - Z
Na molécula de RNA, as estruturas secundárias resultam em interações que

ocorrem na própria fita, dobrando-se em si mesma. Essas estruturas secundárias
da molécula de RNA incluem: regiões pareadas, alças de grampos, alças internas,
bojos e junções.
No entanto, as estruturas secundárias mais lembradas são as presentes nas

sequências de proteínas, as quais incluem três grupos: as alças, as hélices e
as folhas beta (β). As alças também conhecidas como voltas são estruturas
que fazem a ligação entre as hélices e as folhas, sendo, portanto, estruturas
flexíveis e susceptíveis a sofrerem mutações. Diferentes tipos de hélices
são encontradas nas proteínas, sendo a hélice α a mais comum. O mesmo
acontece com as folhas beta (β), onde a mais comum é a folha β pregueada, a
qual apresenta uma face da folha hidrofóbica e a outra hidrofílica. Todas as
folhas beta (β) são formadas por sequências de aminoácidos quase lineares que
interagem lado a lado ao longo de seus eixos longitudinais assemelhando-se
a uma dobradura em uma folha de papel.
A interação entre os elementos presentes na estrutura secundária originam

a estrutura terciária das sequências biológicas. Essa interação é conhecida
como enovelamento ou dobramento entre os elementos, combinando forças
que formam uma conformação mais estável responsável pela função biológica
da molécula.
53
E quando mais de uma estrutura terciária se junta, formando agregados de

macromoléculas, tem-se as estruturas quaternárias das sequências biológicas.
Esse nível não está presente em todas a biomoléculas, apenas nas mais complexas
formadas por várias subunidades.
Logo, os níveis terciário e quaternário das sequências biológicas são os mais

complexos formados pelas várias combinações de múltiplas possibilidades,
as quais modificadas refletem diretamente na sua função biológica. Por isso,
reproduzir com precisão essas estruturas tridimensionais é um desafio para
a bioinformática.
54
CAPÍTULO 2
Registro de genes
As sequências biológicas, sejam elas as sequências nucleotídicas (DNA e RNA)

ou as sequências proteicas, sozinhas não significam muito. Tem-se apenas um
emaranhado, um conjunto, uma sopa de letrinhas. Por isso, a utilização de
ferramentas de bioinformática é indispensável para conhecer as funções que
sequências desempenham nos sistemas biológicos dos seres vivos.
A bioinformática é uma área do conhecimento que se baseia no paradigma

do dogma central da biologia molecular, o qual diz que a informação genética
que está armazenada na molécula de DNA é transcrita em uma molécula de
RNA e traduzida em sequências de proteínas. Ela surgiu com a necessidade de
armazenar e analisar os dados obtidos dos sequenciadores automatizados em
larga escala, e desde então vem ajudando a solucionar constantes demandas
de problemas em biologia por meio da criação de inúmeros programas
computacionais. Esses problemas vão desde analisar e identificar a composição
das moléculas de DNA, RNA e proteínas, buscar a sua função biológica e sua
história evolutiva a partir de análises de filogenia.
Entretanto, para usar os programas desenvolvidos em bioinformática, é

necessário o conhecimento teórico sobre as moléculas estudadas, especialmente
sobre suas características estruturais, pois é impossível caracterizar um gene
sem saber como ele é formado.
Genes compõem os cromossomos e são unidades funcionais e físicas hereditárias.

São formados por sequências de DNA que são transcritas e traduzidas em
proteínas, as quais realizam funções relacionadas com a expressão das
características (fenótipo), e originaram a hipótese: “um gene – uma proteína”.
Entretanto, atualmente, sabe-se que existem três tipos de genes: os que seguem
a hipótese “um gene – uma proteína”, ou seja, os que são transcritos em RNA
mensageiro e traduzidos em uma proteína, os que são apenas transcritos em
RNA (RNA transportador, RNA ribossomal) e os que são reguladores de
outros genes. Tudo isso levando em consideração as características de seres
procariotos e seres eucariotos.
Os genes apresentam pelo menos três estruturas que os caracterizam: promotor,

região codante e terminador. O promotor é uma sequência de DNA que se
localiza na região 5’ de um gene e corresponde ao local de início do processo
55
de transcrição, conhecida como TATA box. A região codante ou CDS (coding

sequence) corresponde à sequência completa de DNA que é transcrita em um
RNA mensageiro e traduzida em sequência de proteínas. Nos seres procariotos,
essa região corresponde a ORF (open reading frame), ou seja, ao quadro aberto
de leitura que vai desde o códon de início até o códon de término do processo
de tradução.
Já nos seres eucariotos, são os éxons presentes na molécula do DNA. E o

terminador é uma sequência de DNA que se localiza na região 3’ de um gene
e corresponde ao local de parada (stop códon) do processo de tradução.
Genes de seres procariotos, codificantes de proteínas, são colineares, permitindo

entender que a sua ORF corresponde a toda sua região codante. E genes de seres
eucariotos, codificantes de proteínas, são mais complexos e se caracterizam
pela presença de íntrons, os quais têm papel regulatório na expressão gênica.
Durante o processo de transcrição, esses íntrons sofrem o processo conhecido
como splicing alternativo e são retirados do gene para que possa ocorrer a
produção das proteínas no processo de tradução (figura 20).
Figura 20. Elementos encontrados nos genes de seres procariotos e eucariotos.
Genes Procarióticos
Sítio de
Sítio de início da Códon de Códon de término da
Transcrição início término Transcrição
Região Região 5’UTR Fase Aberta de Leitura (ORF) 3’UTR

Regulatória Distal Regulatória
Proximal
Genes Eucarióticos
Sítio de
Sítio de início Códon de Códon de término da
da Transcrição início término Transcrição
Íntron
s
Região Região 5’UTR 3’UTR

Regulatória Regulatória Éxons
Distal Proximal
Região Codificante (CDS)
56
Pelo fato de a identificação de regiões codificantes estar ligada diretamente com

a estrutura do gene do organismo de interesse, os algoritmos desenvolvidos
para fazer a predição de genes de organismos procariotos diferem daqueles
utilizados para a predição de genes de eucariotos.
Os principais programas usados na predição de genes codificantes em procariotos

são: Prodigal, GLIMMER, FGenesB, Genemark.hmm. Eles utilizam diferentes
algoritmos para realizar a predição, por exemplo, Genemark.hmm e GLIMMER
utilizam modelos de Markov, Prodigal utiliza algoritmos de computação
dinâmica, o qual se baseia na presença de motivos, conteúdo de C+G e ORF
para identificar as regiões CDS.
A predição de genes em organismos eucariotos é um processo mais complicado

devido à presença de íntrons em seu genoma. O surgimento das plataformas
de sequenciamento de nova geração, as quais utilizam técnicas de RNA-Seq,
permitiram também a identificação de genes nesses organismos. No entanto,
a limitação é o fato de o transcriptoma e o proteoma serem dinâmicos, tendo
a necessidade de extrair várias amostras de diferentes tecidos em diferentes
condições.
A identificação dos genes pode ser feita tanto pela identificação do produto de
cada ORF quanto pela identificação de RNAs não codificantes. As principais
ferramentas utilizadas para a predição de genes por meio da identificação das
ORFs são: BLAST, BLAT, USEARCH, HMMER, Uniprot e Pfam. E se for
identificar genes por meio de RNAs não codificantes, os principais programas
usados são: BLAST, HMMER, Aragorn e tRNAscan-SE.
57
CAPÍTULO 3
Estruturas moleculares tridimensionais
Levando-se em consideração que as sequências biológicas (ácidos nucleicos

e proteínas) são macromoléculas formadas pela união de monômeros, suas
formas tridimensionais encontram-se representadas em seus níveis hierárquicos
secundários, terciários e quaternários.
Para descrever e caracterizar as estruturas tridimensionais das moléculas, a

medida mais utilizada é o cálculo dos ângulos torcionais. O número de ângulos
de torção depende das características das ligações que ocorrem entre os
diferentes tipos de monômeros, ou seja, depende se é uma ligação fosfodiéster,
que ocorre entre os nucleotídeos para formar uma molécula de DNA ou de
RNA, ou uma ligação peptídica, que ocorre entre os aminoácidos para formar
uma proteína.
O grupamento fosfato, presente nos ácidos nucleicos, agrega grande flexibilidade

à cadeia e, por isso, exige a presença de sete ângulos torcionais para caracterizar
sua estrutura tridimensional. São eles: α, β, γ (na região 5’), δ (entre os átomos
3’ e 4’ da pentose), ε e ζ (na porção 3’) e χ, formado entre o carbono 1’ da
pentose e a base nitrogenada (figura 21).
Figura 21. Ângulos torcionais de ácidos nucleicos.
Em contrapartida, para caracterizar a estrutura tridimensional de uma proteína

são necessários apenas três ângulos torcionais: ω, ψ e φ. O ângulo ω corresponde
à ligação entre os grupamentos N-H e C=O e os ângulos ψ e φ localizam-se
entre as porções N- e C- terminais, respectivamente (figura 22).
58
Figura 22. Ângulos torcionais de proteínas.
As biomoléculas, em condições biológicas, apresentam inúmeras conformações

que coexistem simultaneamente, cada uma com as suas particularidades. Por
isso, o cálculo dos ângulos torcionais não é a única forma de caracterizar a
estrutura molecular tridimensional dessas sequências.
Para os ácidos nucleicos, além do cálculo dos ângulos torcionais, são também
utilizados doze parâmetros geométricos distintos para fazer a caracterização de
sua estrutura tridimensional. Isso ocorre devido aos movimentos de rotação
e translação que os pares de bases sofrem dentro da região de pareamento
(figura 23).
Figura 23. Parâmetros geométricos de ácidos nucleicos.
Deslizamento Inclinação
Cisalhamento Torcidos
Distensão Torcidos Deslizamento Inclinação
Escalonamento Abertos Deslocamento Torcidos
59
Para as sequências de aminoácidos têm-se formas tridimensionais mais definidas,

finitas e conservadas ao longo do processo de evolução. Isso ocorre pelo fato
de que quando os aminoácidos se juntam para formar a estrutura terciária
da proteína, alguns se localizam em pontos-chave para a estabilização da
estrutura tridimensional.
Esses pontos são conhecidos como motivos (folds) e possuem várias classificações
de acordo com as suas características (figura 24). Conhecer o motivo de uma
proteína é importante para saber sobre o mecanismo de ação em nível molecular,
uma vez que a função de uma proteína está diretamente relacionada à sua
estrutura tridimensional.
Figura 24. Motivos proteicos.
A) barril n B) feixe 7 C) ferradura 5
D) barril 16 E) feixe 10 F) ferradura 9
G) barril 22 H) feixe 12 I) ferradura 10
60
Todas essas estruturas tridimensionais das macromoléculas biológicas estão

depositadas no Protein Data Bank (PDB), que é um banco de dados gerenciado
por uma organização internacional responsável por manter cópias de dados do
PDB sem custos. A cada ano, o número de dados tem aumentado, sendo obtidos
principalmente por experimentos de cristalografia de raio-x, espectroscopia
de ressonância magnética e crio-microscopia eletrônica.
Entretanto, esses processos são de alto custo e, às vezes, algumas estruturas

não podem ser estabelecidas. Por isso, são também utilizadas as abordagens
computacionais para determinar as estruturas tridimensionais das moléculas.
Os métodos utilizados são classificados como modelagem comparativa e
modelagem de novo.
O método de modelagem comparativa baseia-se em prever a estrutura da

proteína de interesse (proteína-alvo) utilizando estruturas de proteínas
homólogas, depositadas em bancos de dados, já descritas como modelo. Esse
método apresenta, basicamente, os seguintes passos:
1. Seleção do modelo: esse primeiro passo consiste em utilizar ferramentas

de alinhamento, por exemplo, o BLAST para selecionar proteínas
homólogas, as quais serão utilizadas como modelo.
2. Alinhamento: esse segundo passo consiste em utilizar métodos de

alinhamento entre a proteína-molde com a proteína-alvo. O software
utilizado para esse tipo de alinhamento múltiplo é o CLUSTAL.
3. Construção do modelo: nesse terceiro passo é utilizada uma variedade

de métodos para se construir o modelo tridimensional, por exemplo,
modelagem de corpos rígidos, modelagem por pareamento de
fragmentos, modelagem por satisfação de restrições espaciais, entre
outros.
4. Avaliação do modelo: esse quarto passo consiste em avaliar o modelo

criado utilizando alguns softwares como: MODELLER, PROCHECK,
VERIFY3D, WHATCHECK.
61
E o método de modelagem de novo, também conhecido como modelagem ab

initio, ou free modeling ou Primeiros Princípios, baseia-se em prever a estrutura
da proteína a partir de sua sequência de aminoácidos. O conhecimento de
estruturas já conhecidas ajuda a melhorar a eficiência desse método. E os
softwares mais utilizados nessa abordagem são: LINUS, Rosetta, I-TASSER,
FragFold.
62
ALGORITMOS E
ALINHAMENTO UNIDADE III
CAPÍTULO 1
Banco de dados
No início da “Revolução Genômica”, a maior preocupação era com a criação

e manutenção de bancos de dados biológicos para armazenar as informações
oriundas das sequências nucleotídicas e proteicas. O desenvolvimento desse
tipo de banco de dados não envolve apenas questões relacionadas ao projeto
do próprio banco, mas também aspectos relacionados com a organização,
estruturação e manipulação das informações visando a uma padronização.
A bioinformática representa um dos grandes desafios para decifrar o genoma

dos seres vivos. E caracteriza-se por utilizar métodos computadorizados para
interpretar os dados referentes de sequenciamentos que geram grandes volumes
de dados espalhados por várias partes do mundo, trazendo novos avanços
para a cura de doenças, o que torna cada vez mais complexos os processos de
armazenar, acessar e analisar esses dados.
Com o objetivo de contornar essa dificuldade é que foram criados os bancos de

dados biológicos, os quais, de maneira confiável, armazenam as informações e
disponibilizam ferramentas de análises. Eles são aplicados em inúmeras áreas
de pesquisas, por isso sua manutenção e curadoria são essenciais para termos
certeza de que estamos trabalhando com dados de qualidade que reportam
resultados biologicamente confiáveis.
À medida que a informação aumenta, os banco de dados biológicos devem se

adequar e evoluir junto. Isso demanda aumento de recurso computacional para
o arquivamento e interpretação dos dados. Dependendo do tipo de informação
armazenada, têm-se diferentes tipos de bancos de dados.
63
Unidade III | AlgorITmos e Alinhamento
Bancos de dados primários

São bancos de dados biológicos onde são depositadas as informações originais,
ou seja, as informações não curadas. Ocorre a deposição direta de sequências
(nucleotídeos ou proteínas) sem qualquer processamento ou análise.
Esses bancos de dados biológicos, além de centralizarem as informações sobre

qualquer tipo de organismo, também trocam as informações e servem como
fonte para outros bancos de dados especializados.
Dentre os principais encontram-se: GenBank (National Center for Biotechnology

Information – NCBI), EMBL (European Bioinformatics Institute) e DDBJ (DNA
Data Bank of Japan – National Institute of Genetics), que juntamente constituem
o INSD (International Nucleotide Sequence Database).
O GenBank, criado pelo NCBI, fornece acesso a genomas completos, genomas

específicos, banco de dados de nucleotídeos de diferentes organismos, banco
de dados de proteínas de diferentes organismos, ferramentas para análises
de sequências, ferramentas para análises de estrutura 3D e ferramentas para
mapeamento de sequências. Esse banco de dados é formado por vários bancos
de dados dentro dele, como exemplo, tem-se o RefSeq, que é um banco de
dados de sequências de referência para genomas. Apresenta uma única cópia
para cada gene. Dividido em genoma, cDNA e proteína e apresenta sequências
de splicing alternativo. Outro exemplo é dbEST, que apresenta somente as
sequências expressas do genoma dos organismos.
Bancos de dados secundários

São bancos de dados biológicos onde são depositadas as informações que
resultam de análises feitas a partir de dados primários, ou seja, a partir das
sequências de nucleotídeos ou de proteínas armazenadas nos bancos de dados
primários. Logo, podemos dizer que os bancos de dados secundários derivam
dos bancos de dados primários, apresentando algum tipo de análise e por isso
são ditos curados.
Dentre os principais encontram-se: Swiss-prot, UniProt, PROSITE, Blocks,

PDB (Protein Data Bank), entre outros.
64
AlgorITmos e Alinhamento | Unidade III
Bancos de dados especializados
São bancos de dados biológicos onde são depositadas as informações que

atendem um interesse particular de pesquisa, ou seja, atendem a um organismo
em particular ou a um tipo de dado.
Esses bancos de dados biológicos têm sido de grande relevância, pois facilitam
a busca pelas informações sobre determinado organismo e diminuem o tempo
de pesquisa.
Alguns exemplos de dados biológicos especializados: FlyBase (informações

sobre a mosca das frutas), HIV DATABASES (informações sobre a doença),
Greengenes (contém sequências de 16S rRNA de Bacterias e Archaeas), RDP
(Ribosomal Database Project – contém sequências de 16S rRNA de Bacterias,
Archaeas e Fungos), Saccharomyces GENOME DATABASE (informações
sobre essa levedura), entre outros.
Independentemente do tipo de banco de dados biológicos, eles apresentam

recursos para uma ampla variedade de informações e realização de análise,
por exemplo, recuperação de sequências, ou seja, elas podem ser recuperadas
com base nas características de suas anotações, comparação de sequências
(análises de homologia), predição de estruturas, reconhecimento de padrões
de sequências e mapeamento.
Abaixo serão mostrados alguns exemplos de bancos de dados biológicos mais

utilizados em pesquisas no mundo todo:
Bancos de dados genômicos
São bancos de dados biológicos que apresentam coleção de informações sobre

os genomas de organismos (geralmente organismos modelos).
Destaca-se aqui o Ensembl. Banco de dados biológicos que apresenta informações

e anotações de genomas completos de organismos eucariotos, criado pela
iniciativa conjunta do Sanger Center e EBI. Apresenta também informações
sobre SNPs, ferramentas para alinhamento de sequências e correlações com
outros bancos de dados.
65
Outro exemplo é o TAIR (The Arabidopsis Information Resourse), banco de

dados que fornece informações genéticas e moleculares sobre a planta modelo
Arabidopsis thaliana. Os dados disponíveis incluem sequência completa do
genoma, informações estruturais do genoma, informações sobre a expressão
de genes, marcadores moleculares, mapas genéticos, entre outros.
Bancos de dados de proteínas

São bancos de dados biológicos que apresentam coleção de informações sobre
os dados de proteômica. Esses bancos de dados têm o objetivo de fornecer
anotação relevante e curada das proteínas presentes nos organismos.
Destacam-se aqui os bancos de dados Swiss-prot/UniProt, que são bancos

de dados curados manualmente e conectados a outros bancos de dados de
proteínas. Eles apresentam informações como a identificação, descrição, nome
alternativo, atividade catalítica, presença de cofatores, entre outras.
Outro exemplo é o Expasy (Expert Protein Analysis System), responsável por

realizar análises e recuperação de informação de proteínas. Possui uma série
de ferramentas de análises de proteínas, por exemplo, predição de estrutura
secundária, busca por domínios, alinhamento de sequências, entre outras.
Bancos de estruturas de proteínas

São bancos de dados biológicos que anotam, catalogam e distribuem conjuntos de
coordenadas atômicas de macromoléculas, gerando estruturas tridimensionais
de proteínas.
Destaca-se aqui o PDB (Protein Data Bank). Esse banco de dados determina a
estrutura de uma proteína por meio de informações experimentais, atribuições
estruturais secundárias, interações moleculares e coordenadas atômicas.
Bancos de domínios proteicos

São bancos de dados biológicos que anotam e catalogam os domínios ou
motivos presentes nas proteínas. Fazem comparações entre a sequência de
consulta e o banco de dados. Esses bancos de dados ajudam a identificar as
moléculas que compartilham a mesma atividade.
66
Os domínios são regiões que se mantêm constantes nos grupos de sequências

alinhadas e distinguem membros de famílias dos não membros, além de auxiliar
na atribuição da função molecular e biológica da proteína.
Destacam-se os bancos de dados PFam, PROSITE, ProDom, PRINTS, SMART,

IDENTIFY, entre outros.
Bancos de vias metabólicas

O mais utilizado é o KEEG (Kyoto Encyclopedia of Genes and Genome). Ele
arquiva informações de genomas individuais, produtos de genes e suas funções,
no entanto, seu diferencial está nas análises de integração de informações
bioquímicas e genéticas, concentrando as associações entre as moléculas e
suas redes metabólicas e regulatórias.
Pode-se encontrar nesse banco cinco tipos de dados: catálogos de compostos

químicos, catálogos de genes, mapas de genomas (mostra a localização do gene
no cromossomo), mapas de vias (descrevem as redes das atividades moleculares
e cascatas metabólicas das proteínas) e tabelas de genes ortólogos (análise das
relações entre vias metabólicas de diferentes organismos).
Bancos de dados de expressão gênica

Banco de dados biológicos que contém informações de dados de experimentos
de expressão gênica em larga escala.
Destacam-se o GEO Database e o ARRAYEXPRESS. Apresentam dados de

experimentos de microarray.
67
CAPÍTULO 2
Algoritmos de alinhamento
O aprimoramento das metodologias de sequenciamento tem gerado um

aumento crescente no número de informações depositadas nos bancos de
dados biológicos. Essa maior disponibilidade de dados exige cada vez mais
uma maior capacidade computacional de armazenamento e investimento em
tecnologias de processamento e análise desses dados. Sendo assim, algoritmos
de análises tiveram que ser criados e aperfeiçoados, tornando-se ferramentas
essenciais na análise de sequências biológicas.
O alinhamento de sequências nada mais é que a comparação entre duas ou mais

sequências biológicas, buscando por características individuais que estejam
presentes nas sequências analisadas. Sejam elas sequências de nucleotídeos
(DNA ou RNA) ou sequências de aminoácidos (proteínas).
As análises de alinhamento de sequências são de grande importância nos

estudos de filogenia e evolução. Assim como estão presentes nas análises de
interferência estrutural e funcional de proteínas, similaridade e identificação
de sequências e nos estudos aplicados na genômica. Quando duas ou mais
sequências distintas são alinhadas com um certo grau de similaridade é possível
dizer que elas compartilham, em algum momento, um ancestral em comum
e estão relacionadas evolutivamente.
Durante o alinhamento, as sequências são colocadas em linhas, e as características

biológicas ficam posicionadas nas colunas. Algoritmos específicos minimizam as
diferenças entre as sequências em análise buscando pela melhor correspondência,
permitindo que as características idênticas ou similares integrem a mesma
coluna. Como podemos observar na figura abaixo, em a têm-se as sequências
analisadas não alinhadas, cada uma ocupando uma linha, e em b têm-se as
sequências analisadas alinhadas, onde os hifens (-) representam inserções/
deleções nos nucleotídeos e os asteriscos (*) representam os caracteres idênticos
nas sequências (figura 25).
68
Figura 25. Alinhamento de sequências de nucleotídeos.
Sequência 01
Sequência 02
Sequência 03
Sequência 04
b
Sequência 01
Sequência 02
Sequência 03
Sequência 04
Os algoritmos de alinhamento permitem comparar uma sequência-alvo com

milhares de dados disponíveis em bancos de dados biológicos, fornecendo
uma comparação de similaridade por meio de valores estatísticos empregados
nas análises. As metodologias de alinhamento fornecem também informações
sobre a filogenia, estrutura, função e presença ou não de doença genética
(figuras 26a, 26b, 26c e 26d).
Figura 26. Metodologias de alinhamento de sequências.
a. Sequência 01
Sequência 01
Sequência 02 Sequência 04
Sequência 03
Sequência 02
Sequência 04
Sequência 03
b.
Desconhecida
Conhecida
Alfa-hélice Beta-hélice
c.
Desconhecida
Conhecida
Função catalítica
d.
Não Afetado
Não Afetado
Afetado
Afetado
69
O processo de alinhamento de sequências demostra ser bem fácil e não sujeito

a erros. No entanto, isso não é verdade quando ocorre uma comparação entre
sequências de organismos evolutivamente distantes. Ao longo do processo
evolutivo, os genomas sofrem pressão de seleção (mutações) resultando
em deleções ou inserções de nucleotídeos, as quais são representadas por
gaps (lacunas) ou hifens (-) nos alinhamentos. Para as análises evolutivas
e filogenéticas essas regiões com muitas lacunas são eliminadas porque
representam alto nível de incerteza gerando confusão nos alinhamentos.
Como reconhecer o melhor resultado em um alinhamento? Para isso criou-se um

sistema de pontuação que compara os melhores resultados entre os diferentes
alinhamentos. As características iguais nas sequências representam os matches
(igualdades) e recebem pontos positivos. Entretanto, as características que
não são idênticas e ocupam a mesma coluna são os mismatches (desigualdades)
e recebem pontos negativos. Sendo assim, o melhor alinhamento é aquele que
maximiza a pontuação total, ou seja, soma os valores de matches e diminui os
valores de mismatches.
Para esses cálculos de pontuações existem matrizes específicas, sendo as mais

utilizadas as matrizes PAM e a BLOSUM. Na figura abaixo, em a pode-se observar
a aplicação dessas matrizes para a pontuação de alinhamentos em nucleotídeos
e em b para a pontuação em alinhamentos de aminoácidos (figura 27).
Figura 27. Utilização de matrizes de pontuação nos alinhamentos de sequências.
70
Outro exemplo da utilização da metodologia de pontuação utilizada nas

análises de alinhamento de sequências é representado na figura 28, o qual se
baseia na fórmula PL= g+e (L-1), onde L corresponde ao número de deleções
ou inserções presentes em uma coluna, g são as lacunas e e é a penalidade
atribuída a cada lacuna. Nessa metodologia, o melhor alinhamento resultará na
soma dos valores de cada um dos matches e mismatches associados aos valores
das lacunas.
Figura 28. Utilização de matrizes de pontuação nos alinhamentos de sequências.
a
Sequências Dadas:
Sequência 01
Sequência 02
b.
Alinhamento 01:
Sequência 01
Sequência 02
c.
Alinhamento 01:
Sequência 01
Sequência 02
Ainda existem os algoritmos de análise de matriz de pontos (dot matrix),

programação dinâmica e o K-tuple. No primeiro, uma das sequências é colocada
na horizontal e a outra na vertical e as regiões do gráfico que apresentam a
mesma característica são marcadas, representando os matches entre as sequências.
Logo, uma linha diagonal com as marcações será criada e apresentará a região
de maior similaridade entre as sequências (figura 29).
71
Figura 29. Análise de alinhamento de sequências utilizando matriz de pontos (dot matrix).
No segundo, para se calcular o melhor alinhamento entre sequências é preciso

especificar um esquema de pontuação, assim como fornecer um valor de
penalidades para as lacunas. Isso pode ser observado na figura 30, onde em a
tem-se duas sequências, um esquema de pontuação e um valor de -8 atribuído
por penalidade por lacuna.
Figura 30. Análise de alinhamento de sequências utilizando matriz de pontos.
72
E o terceiro, também conhecido como método de palavras, é usado quando

se quer saber a similaridade de uma sequência contra um conjunto de dados.
Ele é mais rápido que os métodos citados acima embora não garanta o melhor
alinhamento como resultado. A sequência a ser estudada (alvo) será dividida
em várias sequências pequenas, as quais serão comparadas com as várias
sequências presentes no conjunto de dados, as quais também serão divididas em
várias sequências pequenas. No final da análise, o algoritmo alinhará as duas
sequências completas a partir das similaridades encontradas nas sequências
pequenas.
73
CAPÍTULO 3
Tipos de alinhamento
Dependendo do número de sequências envolvidas em uma análise de

alinhamento, podemos dividi-lo em simples ou múltiplo. O primeiro envolve
apenas duas sequências, e o segundo inclui três ou mais, podendo chegar até
centenas de sequências envolvidas dependendo do objetivo do estudo.
Contudo, os alinhamentos simples e múltiplos são divididos em alinhamentos

locais e alinhamentos globais, dependendo do que é considerado na extensão
das sequências biológicas. Alinhamentos que buscam pequenas regiões com
alta similaridade são conhecidos como alinhamentos locais, já os alinhamentos
que buscam alinhar as sequências por completo, procurando adicionar maior
número de matches em toda a sua extensão, são os chamados alinhamentos
globais.
Nas pesquisas de filogenia e/ou processos evolutivos que utilizam a bioinformática

é comum fazer comparações entre duas ou mais sequências entre organismos
da mesma espécie ou de espécies diferentes. E quanto maior for o número
de sequências comparadas, mais tempo leva para se obter o resultado, sendo
maior a dificuldade para os algoritmos encontrarem o melhor alinhamento.
Alinhamento simples
Esse tipo de alinhamento também é conhecido como alinhamento par-a-par e
utiliza em sua análise três principais algoritmos: matriz de pontos (dot matrix),
programação dinâmica e o K-tuple.
Dentre esses três métodos, o mais usado atualmente é o método da programação

dinâmica. É um método relativamente rápido que requer um tempo e capacidade
de memória proporcional ao produto do tamanho das duas sequências envolvidas.
A descrição de cada método e como eles funcionam estão relatados no capítulo

anterior.
Alinhamento múltiplo global

Esse tipo de alinhamento também utiliza o método da programação dinâmica,
entretanto, nesse caso, exige grande capacidade computacional e requer dias
para processar o resultado, uma vez que envolve nas suas análises um número
de até centenas de sequências.
74
Alinhamento progressivo
É um tipo de alinhamento múltiplo global que se baseia nas relações evolutivas

entre as sequências. Nesse tipo de alinhamento, verifica-se apenas as
características diferentes entre as sequências e vai se construindo o alinhamento
progressivamente.
É um método rápido e muito utilizado para alinhar um grande número de

sequências. Os programas mais populares de alinhamento progressivo são:
CLUSTAL W e CLUSTAL X.
Alinhamento múltiplo local

Esse tipo de alinhamento utiliza os seguintes algoritmos: análise de perfil,
análise de blocos e análise de motivos.
O método de análise de perfis é utilizado para alinhamento de aminoácidos.

Primeiramente é construída uma matriz de perfil, levando em consideração
matches, mismatches e lacunas. Em seguida, esse perfil é usado para alinhar as
sequências entre si e obter as pontuações.
A análise em blocos utiliza o algoritmo K-tuple e difere da análise de perfil

por não considerar as lacunas durante o alinhamento.
Para se analisar a presença ou não de motivos proteicos nas sequências de

aminoácidos usa-se o método de análise de motivos. Esses motivos proteicos
estão depositados em bancos de dados especializados e o mais buscado
atualmente é o SwissProt.
BLAST (Basic Local Alignment Search Tool)

É um dos programas mais utilizados em bioinformática para realizar alinhamento
e comparação de sequências biológicas, sejam elas sequências nucleotídicas
ou sequências proteicas. Esse programa consegue comparar uma sequência-
alvo (desconhecida) com aquelas depositadas em bancos de dados biológicos
em uma velocidade muito rápida, respondendo problemas em um espaço de
tempo muito curto.
Nesse caso, o alinhamento é realizado de forma aleatória entre as sequências e

analisado sob o ponto de vista estatístico, levando em consideração o valor de
75
e-value. Esse valor significa que quanto menor ele é, menor é a probabilidade
de esse alinhamento ter ocorrido ao acaso, ou seja, maior é a confiabilidade
do resultado. Logo, quanto mais próximo de zero for o valor de e-value mais
similar são as sequências analisadas.
O BLAST é formado por uma família de programas (algoritmos), os quais

são usados para diferentes análises, dependendo da finalidade do estudo e da
necessidade do usuário. As diferentes aplicações do BLAST incluem: blastn,
blastp, blastx, tblastn, tblastx.
O blastn é utilizado quando se quer comparar sequências de nucleotídeos entre

si. É o blast nucleotídeo-nucleotídeo, ou seja, compara uma sequência (query)
de nucleotídeos contra um banco de dados de sequências de nucleotídeos.
O blastp é utilizado quando se quer comparar sequências de proteínas entre

si. É o blast proteína-proteína, ou seja, compara uma sequência (query) de
proteína contra um banco de dados de sequências de proteínas.
O blastx é utilizado quando se quer comparar sequências de nucleotídeos com

sequências de proteínas. É o blast nucleotídeo-proteína, ou seja, compara uma
sequência (query) de nucleotídeos contra um banco de dados de sequências
de proteínas.
O tblastn é utilizado quando se quer comparar sequências de proteínas com

sequências de nucleotídeos. É o blast proteína-nucleotídeo, ou seja, compara
uma sequência (query) de proteínas contra um banco de dados de sequências
de nucleotídeos.
O tblastx é utilizado quando se quer comparar sequências de nucleotídeos

traduzidos com sequências de nucleotídeos traduzidos. Compara uma sequência
(query) de nucleotídeos traduzidos contra um banco de dados de sequências
de nucleotídeos traduzidos.
76
ANÁLISE DE DADOS UNIDADE IV
CAPÍTULO 1
Análise da qualidade de sequências
Os avanços nas tecnologias de sequenciamento proporcionaram o surgimento de

métodos de sequenciamento de alto desempenho, os quais ficaram conhecidos
como Sequenciamento de Nova Geração (Next Generation Sequencing – NGS).
Esses sequenciadores geram um grande volume de dados (milhões de reads) em

um curto intervalo de tempo, pois trabalham em alta velocidade. No entanto,
nem todas essas reads geradas por essas plataformas apresentam uma alta
qualidade. Além disso, a qualidade do resultado de um sequenciamento pode
ser comprometida pela presença de contaminantes nessas reads, como restos
de primers, adaptadores, vetores e sequências longas de bases repetidas que,
de alguma forma, afetam o processo de montagem.
Dessa maneira, a fim de se obter uma montagem de alta qualidade, é

imprescindível, primeiramente, a aplicação de protocolos para a análise
de dados de sequenciamento. Para esse fim, inúmeras são as ferramentas
desenvolvidas para realizar o processamento e análise desse dados brutos.
Por meio delas pode-se remover as reads de baixa qualidade, remover bases
com baixa qualidade que estejam nas extremidades das reads, remover restos
de sequências de primers e de adaptadores, entre outras abordagens.
Abaixo serão apresentadas algumas das principais ferramentas utilizadas em

bioinformática para realizar as análise de qualidade de dados brutos oriundos
de sequenciamento.
77
Unidade IV | Análise de Dados
FastQC
Ferramenta desenvolvida em linguagem Java pelo grupo de bioinformática

do Instituto Babraham (ANDREWS, 2010), podendo ser executado tanto em
interface gráfica quanto em linha de comando.
O FastQC apresenta parâmetros de controle de qualidade podendo ser usado

com dados brutos sequenciados ou com dados alinhados. Esse programa
suporta arquivos nos formatos Fastq, Casava Fastq, Colorspace Fastq, Fastq
comprimido, SAM e BAM.
Um resumo do resultado da análise de dados usando o FastQC está descrito

abaixo:
» Estatística Básica: apresenta o nome do arquivo, codificação, total

de sequências, comprimento da sequência e porcentagem de GC.
» Qualidade da Sequência por Base: é gerado um gráfico de valores

de qualidade em todas as bases em cada posição do arquivo Fastq.
No eixo x está representado o tamanho, em pares de bases, da read
analisada e no eixo y estão os índices de qualidade: quanto maior
a pontuação, melhor a qualidade da base. Bases de boa qualidade
encontram-se entre os valores 29-40, representados pela cor verde
no gráfico.
Bases que apresentam uma qualidade razoável se localizam entre os valores

21-28, representados pela cor laranja no gráfico e as bases com uma qualidade
ruim têm valores entre 0-20, sendo representados pela cor vermelha no
gráfico.
Na figura abaixo pode-se observar um gráfico da qualidade da sequência por

base. Em cima têm-se representadas sequências de qualidade ruim e, abaixo,
sequências de boa qualidade (figura 31).
78
Análise de Dados | Unidade IV
Figura 31. Gráfico da qualidade da sequência por base gerado pelo programa FastQC.
Fonte: Andrews, 2010.
» Índice de Qualidade por Sequência: permite saber se um subconjunto

de sequências tem valores de qualidade baixos.
» Conteúdo da Sequência por Base: essa abordagem mostra a proporção

de cada posição da base, para ver se cada uma das quatro bases
nitrogenadas (A, T, C e G) estão presentes nas mesmas proporções.
O comportamento desequilibrado no início do sequenciamento é
normal e ocorre devido à presença de primers e/ou adaptadores nas
reads.
79
Na figura abaixo pode-se observar um gráfico do conteúdo da sequência por

base. À esquerda têm-se a representação de uma desproporção de bases em
uma sequência e, à direita, uma proporção correta de bases em uma sequência
(figura 32).
Figura 32. Gráfico do conteúdo da sequência por base gerado pelo programa FastQC.
Fonte: Andrews, 2010.
» Conteúdo GC por Sequência: essa abordagem mede o teor de GC ao

longo do comprimento de cada sequência presente em um arquivo
e compara com uma distribuição normal.
» Conteúdo N por Base: refere-se ao número de bases que o sequenciador

é incapaz de sequenciar, ou seja, quando o sequenciador não consegue
saber com confiança qual é a base correta, ele adiciona a letra N.
Logo, quanto menor o conteúdo de N por base, mais confiável e
com melhor qualidade está aquele dado.
» Distribuição do Tamanho da Sequência: os sequenciadores de nova

geração produzem reads de comprimento uniforme. Mas podem,
por vez ou outra, apresentarem algumas de comprimentos variados,
as quais deverão ser removidas para não atrapalharem a qualidade
final dos dados.
» Duplicação de Sequências: indica algum resíduo de amplificação

durante o sequenciamento e devem ser retiradas. Apresentar um
baixo nível de duplicação indica um alto nível de cobertura da
sequência-alvo.
80
» Sequências Super-representadas: indica que essa sequência é altamente

significativa do ponto de vista biológico ou que a amostra está
contaminada.
» Conteúdo de Adaptadores: indica se a read está contaminada com a

presença de adaptadores.
Trimmomatic
Ferramenta desenvolvida por pesquisadores alemães (BOLGER et al., 2014)

para realizar o controle de qualidade de dados oriundos do sequenciamento
da plataforma Illumina. Esse controle de qualidade é feito pela remoção de
regiões que apresentam baixa qualidade ou que são consideradas indesejadas
por causarem erros nas análises de dados.
O trimmomatic é executado por linha de comando e suporta arquivos

compactados. Realiza diversas tarefas, mas as principais são a identificação
e remoção de adaptadores e filtragem de qualidade, atuando de dois modos:
Paired-End (PE) e Single-End (SE).
As atuais medidas de corte utilizadas são:
» ILLUMINACLIP: este passo é usado para encontrar e remover

adaptadores Illumina.
» LEADING: remover bases de baixa qualidade a partir do início.
» TRAILING: remover bases de baixa qualidade a partir do final.
» CROP: cortar a leitura para comprimento especificado.
» MINLEN: eliminar read se estiver abaixo de um determinado

comprimento.
FastX Toolkit
É uma coleção de ferramentas executadas também por linha de comando

para processar os dados brutos vindos dos sequenciadores de última geração.
(http://hannonlab.cshl.edu/fastx_toolkit).
81
Algumas tarefas executadas por essa ferramenta:
» FASTQ-to-FASTA converter: converte arquivos em FASTQ para

arquivos FASTA.
» FASTQ/A Trimmer: faz a trimagem nas reads removendo barcodes.
» FASTQ/A Clipper: remove sequências de adaptadores das reads.
» FASTQ/A Reverse-Complement: produz a sequência reversa

complementar de cada sequência presente no arquivo FASTQ ou
FASTA.
» FASTA Nucleotide Changer: converte as sequências FASTAS em

sequências de DNA/RNA.
» FASTQ Quality Filter: filtra as sequências baseando-se em sua

qualidade.
» FASTQ Quality Trimmer: corta as sequências baseando-se em sua

qualidade.
» FASTQ Masker: mascara os nucleotídeos “N” baseando-se em sua

qualidade.
NGS Toolkit
É um conjunto de ferramentas executadas também por linha de comando

para realizar o controle de qualidade de dados oriundos das plataformas de
sequenciamento 454 e Illumina. Todas as ferramentas do aplicativo foram
implementadas na linguagem de programação Perl. (PATEL; JAIN, 2012).
Na figura abaixo tem-se um resumo das principais análises realizadas por essa
ferramenta: controle de qualidade das sequências, trimagem, conversão de
formatos de arquivos e análises estatísticas (figura 33).
82
Figura 33. Resumo das análises realizadas pela ferramenta NGS Toolkit.
NGS QC Toolkit
Controle de Trimagem Conversão Estatística

qualidade de Formato
IlluQC Cálculos de
454QC N50
Qualidade
Trimagem dos Trimagem dos

Reads Homopilímeros
Fastq para Fastq Sanger para Fastq Solexa para

Fastq para 454
Fasta Fastq Illumina Fastq Illumina
Fonte: Patel; Jain, 2012.
83
CAPÍTULO 2
Montagem e comparação de dados
Podemos dizer que a Era Genômica iniciou quando foi determinado o genoma
do primeiro organismo, o Bacteriófago phi-x174, contendo 5.375 pares de
bases, determinado por Sanger, em 1977. Em 1980, utilizando uma outra
técnica, chamada de shotgun, a qual consiste em fragmentar o DNA em pedaços
randômicos para depois sequenciar e agrupar em pedaços maiores até se obter
a montagem final e completa de uma longa sequência contínua de DNA,
Sanger sequenciou o genoma de outro bacteriófago, o Bacteriófago M13, o
qual apresentava genoma maior que o primeiro, com 48.502 pares de bases.
Após Sanger demonstrar que era possível sequenciar genomas, uma série de
outros genomas virais começaram a ser demonstrados, como o vírus Vaccina
e o Cytomegalovírus, com 187.000 e 192.000 pares de bases, respectivamente.
No ano de 1989, cientistas europeus se reuniram em um consórcio para

sequenciar o genoma da levedura Saccharomyces cerevisiae. Esse consórcio
envolveu inicialmente 74 laboratórios mais dois grupos norte-americanos.
Ao final, os cientistas contribuíram com mais de 55% do genoma completo
da levedura, o qual apresentou 12.068 kilobases, sendo identificados 5.885
genes que codificam potenciais proteínas, 140 genes que codificam RNA
ribossômico, 40 genes que codificam pequenas moléculas de RNA nucleares
e 275 genes que codificam RNA de transferência. (GOFFEAU et al., 1996).
Por meio deste estudo, também foi possível se obterem informações sobre o
número de cromossomos dessa espécie e aspectos evolutivos. O próximo passo
foi estudar as funções biológicas de todos esses genes. O genoma completo
dessa levedura foi publicado somente no ano de 1997, marcando o primeiro
genoma de organismo eucarioto completo sendo publicado.
Esse projeto possibilitou o aprimoramento das técnicas de sequenciamento

e montagem de genomas descritas por Sanger, além de espalhar a ideia de
consórcio para se obter o sequenciamento de genomas de organismos entre
diferentes países.
No ano de 1995, tivemos o primeiro genoma de um organismo não viral

totalmente sequenciado, o genoma da bacteria Haemophilus influenze. Esse
genoma apresentou 1,8 milhão de pares de bases e foi sequenciado pelo Institute
for Genomic Research (TIGR), utilizando a metodologia shotgun. Também vale
destacar o sequenciamento e montagem dos organismos modelo: a bactéria
Escherichia coli e do nematoide Caenorhabditis elegans.
84
A publicação desses genomas de organismos foi um marco paras as áreas da

Biotecnologia, Biologia Molecular e Genética. A partir daí, 13 genomas já
haviam sido sequenciados e sua montagem estava em andamento, por exemplo,
a Drosophila melanogaster (mosca-da-fruta), o Mus musculus (camundongo) e
o Homo sapiens (homem).
O Projeto Genoma Humano teve início no ano de 1990, quando dois centros
de pesquisa norte-americanos propuseram realizar o mapa genético, o mapa
físico e a sequência completa de nucleotídeos do Homo sapiens. Sua publicação
foi, somente, no ano 2001. Nesse estudo, chegaram à conclusão de que o
genoma humano é formado por, aproximadamente, três bilhões de pares
de bases distribuídos em 24 cromossomos. Apenas 3% do nosso genoma
apresenta a capacidade de ser transcrito e traduzido em proteína. Também foi
por meio desse estudo que se pôde inferir a proximidade do ser humano com
outros animais quanto à quantidade de genes funcionais, além de apresentar
a semelhança de vários genes com o de outras espécies, como bactérias, vírus,
vermes, moscas, camundongos e chipanzés.
No Brasil, o primeiro projeto genoma foi iniciado em 1998 pela Fundação

de Amparo à Pesquisa do Estado de São Paulo (FAPESP) para sequenciar o
genoma da bactéria fitopatogênica Xylella fastidiosa. Essa bactéria é de grande
interesse agronômico, pois está ligada à doença conhecida como clorose
variegada dos citros, popularmente conhecida como amarelinho, que ataca
as plantas do gênero Citrus.
Esse estudo também se apresentou no formato de consórcio ligado para a

troca de dados, compartilhamento e divisão de tarefas. Essa rede paulista para
sequenciar o genoma da X. fastidiosa foi batizada de ONSA (Organização para
Sequenciamento e Análise de Nucleotídeos).
A coordenação desse projeto era do britânico Andrew Simpson, do Instituto

Ludwig de Pesquisa sobre o Câncer e contou com a participação de 30 centros
de pesquisas no estado de São Paulo.
O genoma completo da X. fastidiosa foi publicado dois anos depois de seu

início, no ano 2000, na capa da revista “Nature” como o primeiro genoma de
fitopatógeno a ser sequenciado.
O Projeto Genoma dessa bactéria fitopatogênica contribuiu muito para

o desenvolvimento da Bioinformática no Brasil, além de contribuir com
85
equipamentos de ponta para as unidades de pesquisas, como equipamentos

de última geração para sequenciamento e análise funcional de genes. Trouxe
também benefícios na capacitação e treinamento para todos os níveis acadêmicos,
como graduação, mestrado, doutorado e pós-doutorado.
O sucesso desse consórcio fez com que o Ministério da Ciência e Tecnologia,

por meio do Conselho Nacional de Desenvolvimento Científico e Tecnológico
(CNPq), desenvolvesse a Rede Nacional do Projeto Genoma Brasileiro. Essa
rede engloba 25 centros de pesquisa distribuídos por todas as regiões do país.
A tabela 2 abaixo mostra os principais avanços tecnológicos que ocorreram

desde o surgimento da genética até os anos 2000, os quais possibilitaram os
estudos de sequenciamento e montagem de todos esses seres vivos.
Tabela 2. Avanços Tecnológicos na Genética.
Ano Fato Ocorrido

1865 Gregor Mendel: conceito de Hereditariedade.
1928 Frederick Griffith: DNA é o princípio transformante.
1941 Beadle e Tatum: um gene, uma enzima.
1960 Chargaff: o número de adeninas é igual ao de timinas e o número de citosinas é igual ao de guaninas.
1952 Hershey e Chase: DNA é o material genético.
1953 Watson e Crick: estrutura do DNA.
1957 Crick: Dogma Central da Biologia Molecular.
1970 Arber e Smith: enzima de restrição.
1972 Paul Berg: DNA Recombinante.
1973 Boyer e Cohen: transformação bacteriana.
1975 Erwin Southern: técnica de Southern Bloot.
1977 Sanger e Gilbert: sequenciamento de DNA.
1980 Sanger: publicação do primeiro genoma completo do bacteriófago PhiX174.
1982 Criação do GenBank.
1983 Kary Mullis: reação da Cadeia da Polimerase (PCR).
1986 Primeiro sequenciador automático entra no mercado.
1990 Inicia o Projeto Genoma Humano.
1995 Publicação do genoma da bactéria Hamophilus influenza.
1996 Publicação do genoma da levedura Saccharomyces cerevisiae.
1997 Publicação do genoma da bactéria Escherichia coli.
1998 Publicação do genoma da verme Caenorhabditis elegans.
2000 Publicação do genoma da planta modelo Arabdopsis thaliana.
2001 Publicação do genoma humano.
86
Os projetos genomas transformaram-se num empreendimento multidisciplinar,

que envolve recursos humanos, técnicos e financeiros de grande porte, primeiro
com a iniciativa de instituições públicas espalhadas pelo mundo e depois com
empresas que vendem os serviços de sequenciamento.
Para um registro histórico, em 2012, estavam depositados no Genbank os

genomas de 3.136 vírus, 12.018 procariotos e 1.830 eucariotos. Hoje, no ano
de 2020 estão depositados no Genbank os genomas de 41.512 vírus, 284.613
procariotos e 14.468 eucariotos. (https://www.ncbi.nlm.nih.gov/genome/
browse#!/overview/).
De lá para cá, milhares de genomas de outros organismos já foram publicados.

Isso tem acontecido devido às técnicas de sequenciamento terem se tornado
cada vez menos onerosas e terem ocorrido investimentos cada vez maiores
no desenvolvimento de algoritmos e programas de análises de sequências e
montagem de genomas.
Os primeiros programas para montagem de genomas foram desenvolvidos

para analisar um volume de dados pequeno, como bactérias e fagos. Mas
para analisar genomas de organismos maiores e mais complexos, que têm um
volume de dados muito grande, foi preciso aprimorar e desenvolver outros
algoritmos de montagem, os quais são utilizados atualmente.
Na tabela abaixo estão listados os principais programas usados na montagem

de genomas e transcriptomas (tabela 3).
Tabela 3. Principais programas usados na montagem de genomas e transcriptomas.
Nome Análise
AByss Genomas grandes
ALLPATHS-LG Genomas grandes
Celera WGS Assembler Genomas grandes
CLC Genomics Workbench Genomas e transcriptomas
Geneious Genomas
Newbler Genomas e transcriptomas
Phrap Genomas e transcriptomas
SOAPdenovo Genomas e transcriptomas
Trans-ABySS Transcriptomas
Staden gap4 package Genomas pequenos e transcriptomas
Velvet Genomas pequenos e transcriptomas
Fonte: Verli, 2014.
87
Montagem de genomas
É um processo que envolve um conjunto de procedimentos que tem como

objetivo a reconstrução da sequência de DNA original de um organismo a
partir dos fragmentos (reads) gerados no sequenciamento.
Essas reads são agrupadas formando fragmentos maiores e contíguos, conhecidos

como contigs. Esses contigs, por sua vez, também são agrupados formando
fragmentos maiores conhecidos como scaffolds.
A qualidade da montagem de um genoma está associada a alguns índices, como

a cobertura e o valor de N50. A cobertura corresponde à quantidade de vezes
que cada nucleotídeo é sequenciado, ou seja, um genoma que apresenta uma
cobertura de 25X indica que cada nucleotídeo foi encontrado em pelo menos
25 reads. E o N50 é uma medida estatística que indica o quanto do genoma
é coberto por contigs grandes, ou seja, N50 significa que 50% de reads estão
montados em um contig grande.
Existem duas estratégias utilizadas para fazer a montagem de genomas:

a Montagem por Referência e a Montagem De Novo. Na Montagem por
Referência, usa-se um genoma de referência para fazer a montagem, ou
seja, os scaffolds são alinhados contra um genoma semelhante já conhecido,
contra um genoma de referência. As vantagens dessa estratégia são: obtenção
de menos scaffolds (maiores em comprimentos), montagem é mais rápida e
consome menos memória. No entanto, nem sempre existe um genoma de
referência próximo e parecido ao que está sendo montado e as diferenças vão
influenciar na montagem.
Na Montagem De Novo, não existe um genoma de referência disponível para

fazer a montagem. Os scaffolds são alinhados contra eles mesmos. O nome
“De novo” se refere à ausência de uma informação prévia. Essa estratégia é
mais complexa e difícil, ainda mais com genomas grandes que apresentam
sequências repetitivas. Exige maior interatividade e atenção, mais tempo de
montagem e consome mais memória.
Independentemente de qual estratégia é usada para realizar a montagem de

um genoma, os atuais programas de montagem utilizam algoritmos baseados
em grafos de Bruijn. Nessa abordagem, os K-mers (pequenos fragmentos de
comprimento fixo obtido de cada read) são usados como índices e apenas os
88
pares de reads que compartilham o mesmo nodo do grafo são avaliados. É

comum usar K-mers com tamanho maior ou igual a 20 nucleotídeos para se
ter uma montagem de qualidade.
Ao final do processo de sequenciamento do genoma de organismos procariotos,

espera-se obter uma sequência única que representa toda a sequência nucleotídica
do cromossomo. No entanto, ao se analisar o genoma de organismos eucariotos,
teoricamente, cada cromossomo deveria ser representado por um scaffold. Mas
isso não acontece devido à complexidade do genoma desses organismos, que
apresentam uma quantidade considerável de regiões repetitivas (transposons,
LINEs, SINEs, microssatélites, retrotransposons), e tamanho muito grande,
podendo chegar a mais de 3 bilhões de pares de bases, como o caso do genoma
humano.
Os desafios encontrados durante o processo de montagem de um genoma são

inúmeros, que vão desde contaminação da amostra, erros de sequenciamento,
baixa qualidade das amostras, profundidade desigual das reads, baixa cobertura,
alta taxa de erro, presença de adaptadores e primers, presença de elementos
repetitivos, entre outros.
Para vencer esses desafios e obter uma montagem de qualidade deve-se escolher
a melhor metodologia de sequenciamento associada ao montador mais adequado
ao genoma que está sendo trabalhado.
Montagem de transcriptomas
O estudo do transcriptoma, além de fornecer informações essenciais para o

entendimento das vias metabólicas que são ativadas em determinadas condições
fisiológicas em um dado estágio de desenvolvimento do organismo, também
tem uma aplicação importante na procura de sequências codificantes nos
genomas. Por isso, essa estratégia tem sido bastante aplicada em organismos
eucariotos complexos, os quais apresentam uma quantidade de íntrons por
gene muito grande.
Dentre as técnicas usadas para se estudar o transcriptoma, encontram-se o

sequenciamento de ESTs (Expressed Sequence Tags), o SSH (Supression Subtrative
Hybridization), o Nothern blot, o microarranjo, o SAGE (Serial Analysis of Gene
Expression) e a mais atual, o RNA-seq. A vantagem dessa última em relação às
outras técnicas é que ela permite identificar os transcritos sem a necessidade
89
do conhecimento prévio do genoma do organismo, o que não é possível nas

outras técnicas, pois elas dependem do conhecimento prévio do genoma.
A técnica do RNA-seq consiste na extração e conversão da molécula de RNA

em uma biblioteca de cDNA, a qual será submetida ao sequenciamento, gerando
milhões de reads, as quais passarão pela análise de qualidade para posterior
montagem do transcriptoma.
O passo inicial para a montagem do transcriptoma é a avaliação das reads

que foram geradas no sequenciamento. Nessa fase, como dito anteriormente,
são removidas as reads de baixa qualidade, assim como aquelas que estão
contaminadas com resto de primers, adaptadores, vetores, entre outros.
O segundo passo é o alinhamento dessas reads, que pode ser feito usando
um genoma de referência ou não. Na primeira estratégia, a ideia é alinhar o
conjunto de reads usando o conhecimento prévio de um genoma conhecido
(genoma de referência) e depois buscar a sobreposição. Para fazer essa análise
podem ser usados vários programas, como Tophat, Bowtie, BWA, MapSplice,
entre outros.
O próximo passo é a quantificação para obter a medida de expressão de cada

gene. Essa análise permite identificar as mudanças de expressão de um conjunto
de genes em diferentes condições. Um ponto crucial aqui é o método estatístico
que será utilizado na análise. O mais utilizado é o RPKM (reads por kilobase
de transcrito por milhões de reads mapeadas), ou seja, faz uma comparação
de transcritos com diferentes valores de RPKM para determinada amostra
biológica, em diferentes tempos.
Por último, tem-se a anotação, que nada mais é que o processo de procurar
informação relevante dos transcritos mapeados para obter o significado
biológico, permitindo a compreensão dos processos metabólicos.
90
CAPÍTULO 3
Ferramentas de visualização
Com o aumento dos projetos de sequenciamento, o volume de dados gerados

aumentou enormemente, o que demanda não só um aumento na capacidade de
armazenamento desses dados, como também o desenvolvimento de programas
mais rápidos e eficientes para suas análises.
Após sequenciados, montados e anotados, esses dados devem ser disponibilizados

de uma maneira que a informação possa ser analisada e usada para a compreensão
dos processos biológicos. Como a maioria dos programas utilizados para fazer
essas análises reportam um resultado na forma de texto, o qual se torna de
difícil compreensão para os pesquisadores, começaram a ser desenvolvidas
ferramentas de visualização desses resultados.
As ferramentas de visualização foram criadas com o objetivo de auxiliar

os pesquisadores a identificar características globais de um genoma ou
transcriptoma, por exemplo, a localização de genes em cromossomos,
identificação da função de proteínas, reconstrução de rotas metabólicas,
identificação de sintenias, entre outras.
Essas ferramentas são conhecidas como genome browsers e permitem uma

análise mais acurada, indicando informações referentes a cada característica
procurada com geração de gráficos de alta qualidade. O modo de visualização
varia bastante e depende da ferramenta utilizada pelo usuário. No entanto,
todas as ferramentas de visualização devem apresentar:
» Detalhes da demanda: usuário deve ser capaz de selecionar a espécie,

cromossomos e locais do cromossomo que deseja visualizar.
» Zoom: usuário deve ser capaz de visualizar áreas restritas.
» Rotulação eficiente: usuário deve ser capaz de visualizar as

características de forma nítida, sem sobreposição.
» Movimentação do cromossomo: usuário deve ser capaz de deslizar

sobre um cromossomo, permitindo o alinhamento entre diferentes
blocos.
91
» Inversão do cromossomo: usuário deve ser capaz de visualizar de

forma mais clara as relações de sintenia em situações de inversão
da ordem de genes.
» Filtragem: usuário deve ser capaz de conseguir filtrar os dados de

acordo com algum tipo de característica.
» Coloração: o software deve usar um esquema de cores padrão para

diferenciar cromossomos e genes, mas o usuário deve ser capaz de
modificar essas cores.
A seguir são apresentadas algumas ferramentas mais utilizadas para a

visualização:
CGView
Ferramenta de visualização de genomas circulares, como cromossomos
bacterianos, DNA mitocondrial e plasmídeos. Desenvolvida em linguagem
Java e disponível gratuitamente para download.
Artemis
Ferramenta gratuita de visualização e anotação que permite a visualização de
características das sequências geradas pelos sequenciadores de nova geração.
JBrowse
Ferramenta de visualização de genomas desenvolvido em Java e HTML5. Pode
ser executado na área de trabalho ou incorporado em site.
GenomeView
Ferramenta de visualização e edição de genomas desenvolvida pelo Broad
Institute, fornece visualização interativa de sequências, anotações, alinhamentos
múltiplos, mapeamentos sintênicos, entre outros.
92
Circos
Ferramenta de visualização e informações de dados. É controlado por arquivos
de configuração de texto simples, o que o torna facilmente incorporado em
pipelines de aquisição, análise e relatório de dados.
KEEG
Banco de dados biológico on-line que também serve como ferramenta de
visualização de genomas, vias metabólicas, redes de interações moleculares
nas células, entre outras.
BLAST2GO
Ferramenta utilizada para a anotação funcional e automática de genes com
alto rendimento, permitindo a visualização dessa análise, assim como rotas
e vias metabólicas de proteínas.
93
REFERÊNCIAS
ANDREWS, S. FastQC A Quality Control tool for High Throughput Sequence Data. 2010.
Disponível em: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/. Acesso em: 27 fev. 2021.
BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: A flexible trimmer for Illumina Sequence
Data. Bioinformatics, btu170. 2014.
GOFFEAU, A. et al. Life in 6000 genes. Science. 1996 Oct 25;274(5287):546, 563-7.
GRIFFITHS, A. J. F.; WESSLER, S. R.; CARROLL, S. B.; DOEBLEY, J. Introdução à Genética.
11. ed. Rio de Janeiro: Guanabara Koogan, 2016.
KNIEF, C. Analysis of plant microbe interactions in the era of next generation sequencing
technologies. Frontiers in plant science, v.5, 2014.
MAXAM, A. M.; GILBERT, W. A new method for sequencing DNA. PANS. 1977 Fev., 74 (2),
560-564. DOI: 10.1073/pnas.74.2.560.
MOREIRA, L. M. et al. Ciências Genômicas: Fundamentos e Aplicações. 1. ed. Ribeirão Preto:
Cubo, 2015.
NIERMAN, W.; EISEN, J. A.; FRASER, C. M. Microbial genome sequencing 2000: new insights
into physiology, evolution and expression analysis. Res Microbiol. 2000 Mar; 151(2): 79-84. PMID:
10865951.
PATEL, R. K.; JAIN, M. NGS QC Toolkit: a toolkit for quality control of next generation sequencing
data. PLoS One. 2012;7(2): e30619.
ROBERTS, R. J.; CARNEIRO, M. O.; SCHATZ, M. C. The advantages of SMRT sequencing.
Genome biology, v.14, p.405, 2013.
TRABUCO, L.; VILLA, E. Case Study: DNA. Disponível em: http://www.ks.uiuc.edu/Training/
CaseStudies/pdfs/dna.pdf. Acesso em: 11 nov. 2020.
VENTER, J. C. et al. The sequence of the human genome. Science. 2001 Feb 16;291(5507):1304-
51. doi: 10.1126/science.1058040. Erratum in: Science 2001 Jun 5;292(5523):1838. PMID: 11181995.
VERLI, H. et al. Bioinformática: Da Biologia à Flexibilidade Molecular. 1. ed. São Paulo: SBBq, 2014.
ZAHA, A.; FERREIRA, H. B.; PASSAGLIA, L. M. P. Biologia Molecular Básica. 5. ed. Porto
Alegre: Artmed, 2014.
Sites
http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.
Acesso em: 27 fev. 2021.
https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/. Acesso em: 27 fev. 2021.
94

Analise de Dados Omicos Multidimensionais-1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise de Dados Omicos Multidimensionais-1

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE DE DADOS ÔMICOS

Brenda Neves Porto

Equipe Técnica de Avaliação, Revisão Linguística e Editoração

ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA.................................................................................. 5

A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se

Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade

Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo

Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em

Sugestão de estudo complementar

Para (não) finalizar

A utilização de computadores para realizar tarefas em Biologia pode-se dizer

A bioinformática é multidisciplinar, pois emprega os conhecimentos de

As sequências genômicas são complementadas por outros tipos de dados,

Para isso, se faz necessário que os dados estejam disponíveis em bancos de

Atualmente, o crescimento deste volume de informações está longe de parar

» Demonstrar o que é sequenciamento.

» Mostrar os diferentes tipos de sequências biológicas (nucleotídicas e

» Conhecer as estruturas moleculares tridimensionais.

» Conceituar bancos de dados.

» Demonstrar os diferentes algoritmos de alinhamento de sequências.

» Apresentar como se analisam as sequências.

» Abordar a montagem e comparação de dados.

» Apresentar as ferramentas de visualização.

A genética molecular é o ramo da ciência que estuda a biologia ao nível

A molécula de DNA funciona como um computador que armazena as informações

Já a transmissão da informação para que ocorra a síntese proteica, onde temos

O DNA, das células dos organismos eucariotos, se encontra no núcleo

A sequência das bases nitrogenadas na molécula de DNA determinará a

Cada série de três nucleotídeos no DNA especifica um aminoácido na cadeia

É o que conhecemos como dogma central da biologia molecular, em que uma

Dogma Central da Biologia Molecular.

DNA MRNA Proteína Fenótipo

Transcrição Reversa (cDNA)

Fonte: Zaha et al., 2014.

Os ácidos nucleicos são macromoléculas biológicas de extrema importância,

Cada nucleotídeo é formado por um ácido, um açúcar e uma base nitrogenada.

Figura 2. Estrutura molecular de um nucleotídeo.

Fonte: Zaha et al., 2014.

O ácido presente nos nucleotídeos é o fosfato, seja na molécula de DNA ou na

O açúcar presente nos nucleotídeos é uma pentose, a qual pode ou não

Quando tem a presença de uma hidroxila (OH) no carbono 2’ da pentose, isso

A pentose faz a ligação entre a base nitrogenada e o grupamento fosfato. Quando

Figura 3. Estrutura molecular de um nucleosídeo.

Fonte: Zaha et al., 2014.

Como o açúcar é uma pentose e apresenta cinco carbonos em sua estrutura

No carbono 2’ da pentose liga-se ou não uma hidroxila, ou seja, é nesse

No carbono 3’ da pentose ocorre a ligação dos nucleotídeos entre si, sempre

No carbono 4’ da pentose não ocorre nada em especial. E no carbono 5’ da

As bases nitrogenadas podem ser púricas ou pirimídicas, ambas presentes nas

Timina Citosina Uracila

Existem dois tipos de ácidos nucleicos: ácido desoxirribonucleico (DNA) e o

Ácido Desoxirribonucleico (DNA)

O ácido desoxirribonucleico é responsável por armazenar toda a informação

por um ácido (grupamento fosfato), um açúcar (pentose) e uma base nitrogenada.

Sua estrutura molecular tridimensional foi elucidada em 1953 pelos cientistas

As bases nitrogenadas presentes no DNA são as púricas adenina (A) e guanina

As bases adenina (A) e timina (T) apresentam duas pontes de hidrogênio

A complementariedade da fita do DNA é uma característica fundamental nos

Fonte: Zaha et al., 2014.

O ácido desoxirribonucleico apresenta três classes principais:

» DNA B: forma clássica da molécula de DNA descrita por Watson e

» DNA A: apresenta uma estrutura molecular mais grossa e curta

» DNA Z: surge quando ocorre metilação ou estresse torcional das

Figura 6. Classes principais da molécula de DNA.