Análise, Reconhecimento e Clonagem Final de ORF

UNIVERSIDADE FEDERAL DO PARANÁ
SETOR DE TECNOLOGIA
CURSO DE ENGENHARIA DE BIOPROCESSOS E BIOTECNOLOGIA
CURITIBA
2009
Universidade Federal do Paraná
1
Setor de Ciências Biológicas
Departamento de Bioquímica
Análise, reconhecimento e clonagem virtual de ORF
Trabalho apresentado à disciplina BQ020 –

Biologia Molecular do Departamento de
Bioquímica do setor de Ciências Biológicas da
UFPR, pelo alunos Carolina Motter Catarino,
Karla Yukari Katayama, Richard Fhilllipy Bosqui
Teixeira do curso de Engenharia de
Bioprocessos e Biotecnologia.
Professor: Dr. Emanuel Maltempi de Souza
CURITIBA
2009
SUMARIO
2
1 INTRODUÇÃO.................................................................................................................................3
2 ANÁLISE DA SEQÜÊNCIA E CONSTRUÇÃO DE PLASMÍDIO VIRTUAL................................................5
2.1 A seqüência de DNA 5’ - 3’ a ser estudada.............................................................................5
2.2 Análise da seqüência por Frame Plot......................................................................................7
2.3 BLAST......................................................................................................................................8
2.3.1 ORF 1 (rosa)....................................................................................................................8
2.3.2 ORF2 (verde)...................................................................................................................9
2.3.3 ORF3 (azul)....................................................................................................................10
2.3.4 ORF4 (vermelha)...........................................................................................................11
2.3.5 ORF5 (roxo)...................................................................................................................11
2.4 Clustal...................................................................................................................................12
2.5 String....................................................................................................................................15
2.6 Análise de Domínios.............................................................................................................18
2.7 Mapa de Restrição................................................................................................................20
2.8 Região Promotora.................................................................................................................21
2.9 Região Terminadora.............................................................................................................22
2.10 Identificação do sitio de ligação do ribossomo.....................................................................23
2.11 Seqüência codificante final e os motivos estruturais identificados......................................23
2.12 Estratégia de clonagem para expressar a proteína..............................................................25
2.12.1 Vetor escolhido para posterior clonagem e Microganismo..........................................27
2.12.2 PCR com primers mutagênicos..........................................................................................28
2.12.3 Escolha da Enzima de Restrição....................................................................................29
2.12.4 Desenho do primer.......................................................................................................30
2.12.5 Montagem do Vetor.....................................................................................................30
2.12.6 Transformação..............................................................................................................30
2.12.7 Superexpressão e purificação.......................................................................................31
3 FUNÇÃO DO GENE OU OPERON...................................................................................................32
3.1 Microrganismo e importância fisiológica do produto do gene............................................32
3.2 Outros genes relevantes que podem fazer parte do operon...............................................34
3.3 Características gerais da proteína codificada........................................................................34
4 REFERÊNCIAS BIBLIOGRÁFICAS.....................................................................................................36
ANEXOS................................................................................................................................................38
3
1 INTRODUÇÃO
A biologia molecular esta interessada em investigar e compreender o funcionamento

e estrutura do material genético bem como sua expressão nas células e efeitos nos
organismos. Anteriormente ao desenvolvimento desta área de pesquisa da biologia,
cientistas e médicos, muitas vezes, não eram capazes de explicar determinados efeitos
visualizados nos seres vivos, não se compreendiam mecanismos de ação de diversas
doenças, ou ate mesmo suas origens, entre outros exemplos. A biologia molecular, que
engloba conhecimentos e técnicas tanto de bioquímica como de genética, possui um dogma
central que abrange três processos fundamentais da célula: replicação-transcrição-tradução.
O DNA é um polímero de nucleotídeos responsável pelo armazenamento e
transmissão da informação genética da célula. Este polímero apresenta regiões de grande
importância para o estudo da biologia molecular, uma destas regiões é conhecida por gene.
O gene é uma seqüência de DNA que codifica a seqüência primária de algum produto
gênico final. Esse entendimento do gene bem como do funcionamento e estrutura do DNA
evoluiu muito no final do ultimo século e permitiu uma melhor compreensão do
funcionamento celular, das interações que ocorrem num microrganismo, como se produz
determinado produto, em fim, de como a vida se processa a nível molecular e
conseqüentemente seus efeitos num nível maior.
Conhecer a seqüência de nucleotídeos do gene se torna importante, pois a partir
disso pode-se deduzir a seqüência de aminoácidos dos produtos gênicos, por exemplo, a
seqüência de alguma proteína de interesse. Com a seqüência nucleotídica determinada
pode-se, através da bioinformática, primeiramente determinar todas as possíveis ORFs, e
em seguida avaliar quais podem representar genes reais. Então, parte-se para a
identificação do gene, ou seja, o que pode ser codificado. Isto se da por uma busca por
homologia, executada por computadores, e que vai comparar a seqüência do seu gene, cuja
ORF foi previamente analisada, com outras já estudadas e registradas num banco de dados.
Essa comparação se da com DNA de todos os organismos, pois genes de diferentes
organismos que possuem funções similares também apresentam seqüências similares.
Além disso, a compreensão da seqüência do gene possibilita estudar maneiras de
expressa-lo em outros organismos e assim produzir, por exemplo, uma proteína ou enzima
em grande escala. Também, conhecendo a seqüência de um gene, e em geral do DNA, é
possível identificar se determinados efeitos visualizados nos seres vivos, como doenças e
alterações físicas, são provocados por alterações a nível genético, comparando com a
sequencia “norma”.
4
Essa análise computacional permite uma rápida identificação/comparação da
seqüência obtida com outras seqüências conhecidas e depositadas num banco de dados de
DNA. Com esse advento da bioinformática essa análise se torna muito mais rápida e
simples desde que a sua seqüência possua uma homóloga já identificada. Essa
comparação fornece uma porcentagem de semelhança entre diversas seqüências, então se
corre o risco de aceitar algum resultado da analise que na verdade apresente alguma
diferença talvez relevante em relação a sua seqüência. Além disso, a utilização destes
métodos computacionais requer certo conhecimento e habilidade em trabalhar com os
programas envolvidos.
Uma outra limitação importante dos programas de busca de gene é a falha na
identificação de promotores e a natureza éxon-íntron dos genes eucarióticos que demandam
o desenvolvimento de novas ferramentas mais eficientes de bioinformática para se explorar
mais eficientemente a totalidade do DNA.
2 ANÁLISE DA SEQÜÊNCIA E CONSTRUÇÃO DE PLASMÍDIO VIRTUAL
2.1 A seqüência de DNA 5’ - 3’ a ser estudada
cgacccgcccgcccgcaccatgcctccggcgtcgagcagcagcagatagtccagcccgtgctcctccgcctcctcctcca
gcagccggcgcaggtcggcgggcgtgccgcgctccagaatcagggccaaccgatgggaggtcgccaccccctccagc
ccgttgcgcagcgacatctgcacccggtcgaagaactgccgcgccgtgcccaggtcggagctgaccttgttgaccagaag
ctggtcgtagccctgcgtcccccaggcccagacgatcatcagcagaaccggcgcgccgaccagcagcggcgccagca
ccagcgccagcagcttgagccgcaccgactccgcgtaggccgccgccagccgcttcagcatgttgggccgggacgggtt
ggggcgaggcgccgaggatggcgccggagatggaggcgtcacaccccccattccacgcatttccggtccagcgtcttgc
gcgacacgcccagcagatcggcggcgcgcgtcttgctgccgtcacagcgcgccagcacggtcaggatgtggcgcttctcc
acctcggccagcggcagcacgtcgctgtcgccgtccatgcggacgtggcggaccggacagggggcgcagggcgggttg
ccggccaccgcggcggcgcacaggctggggtccgcggccaggccggcctccaccgccgcggcgttggcggtgtccag
atcgtcgagcgggaattcgccgagcagcagcgaccgctccacgaagttgcgcagctcgcgcacgttgccgggccagga
atggcacatcagcgcccgcgtcacctccggcgtcagggtcagcggcggcacggccagccgcaccggcaggaagcgca
tgaacagcgcggccagctccggcacgtccaccgcgcgctggcgcagcggcggaatggtcagtgtcatcacctccagccg
gtagaacaggtccgggcggaagcgccccgccgcggcctccgccttcaggtcgcggttggtggcggtgaccacgcggac
gtccaccggcacctcctgttcgctgccgaccgggcggatgcgccgctcctccagaacgcgcagcagcttggattgcagggt
cagcgacagctcgccgatctcgtccaggaacagcgtgccgccgtgggcgtagtagaacagccccttgcgcgcgtccttgg
ccccggtgaaggcgccgcgggcgtggccgaacagctccgcctcgatcaggtcggcggagatcgccgcgcaattcaccg
ccacgaagggccggtcggcgcgcggcgacaggtcgtgcagcgcgcgggcgaccagctccttgcccacgccggactcg
5
ccctggatcagcacggtggacggggtcggcgccacccgctgcaccagcgagcgcaaccgcatcatggcgtccgaccgc
ccgacaatctcatcgcgcccgttgtccttcttcgacagctgccgacgcagaacatagttctcgcgggtcagccgggtgcgctc
gacgcagcggtcgatggagttcaggatctgctcgacccggaagggcttcagcacgaaatccgcggcaccggagcgcag
ggcgtcgatggccgtgtccatgtcggcgaaggcggtgaccaggatcacctcgccggcgtagccgccggccatcagctcct
tcagccagtccagccccgagcggcccggcagggcgacgtcgaggatgatgacctcggcgtggatgcgctccagcgtcc
gggcgccctcctcggcgctgcccgccacctcgacccgccagccgcgccgctccagcgcgcgcgacagaaagctgcaa
atcccctcctcatcgtccaccacgaggatggagggcttcgcctgatcctccattcggcccccttccggcgcgctgcggtcgg
acggggtggagacaggcgcggtcatggtcatcactgtgcactcggcggcggaaagccccacagtctaagggagcatag
ccaagccgggccagtgatttccgaaatccggaatagtcccagcgtcccgcttggacaaccgcgccgcgccatgcgacgct
ctcccgctcatcgcacagaccgggagccgaccgtgacggacaccagcggatcatttgtccatgccggaccgcgcatcgc
cgacaccggcatcagtgatgccgagtggcaagcccggatcgatctcgccgccgcctaccgcctggtcgccgagcgcggc
tgggacgacctgatctacacccacatctcgctggccgtgccgggggagccggggcgcttcctcatcaaccccttcggcctg
accttcggcgaggtgaccgcctccaacctcgtgaagatcgatatccacggcgccatcatcggcgacagcccccacccggt
gaataccaccggcttcgtcatccatggcgccgtccatgcggcgcgcgaggacgcgcgctgcgtcatgcaccttcacaacg
aggcggcggtggcggtgtcgatgctgaaggacgggctcctcccgctgtcccagcacgccctgcgcttttaccgcgacctcg
cctatcaccggtacgaggggctggccctgaccgacagcgagaaggtccgcctcgtcgccaatctcggcacccgccgggc
gatgctcctccacaaccacggcagtctggtgaccgggcgcacggtggcggaggccttctgcctgatggacatgctggaca
aggcgtgccggatgcaactcgccgcgcaggccactggcgcggaactggtgtcgccgccgccggagctgtgcgacaaga
cctaccggcaactcaccgccgatccggagccggaaggcgaactggaatggccggcgctgctgcgacgcctggaccgg
cgctgcccggactacaggaactgagctttccggaccgcggtccgcaacagaggggatggaacgactatgccgctgatca
acgttcagcttttcgaaggccgcacgctggagcagaagcgcgcctacgccaaggcgctcaccgacgcctcggtcgcggt
gctcggctgcagcccggaggcggtcgatgtcatcttccacgacgtgaagaagagcgattgggccagcggcggcaagctg
tggtccgaccccgagtgacattcgcttcccggacgcccatgggaagcattgctcaccccatgggcatccggacaaaaaac
aggcagaccaatccctggcctgcgttcaaaccgcacccaccgtcttgcccgtgagacggtaaaccgcggtggcgaccgc
ccggtcctcgctgtcgccgacctccatgcgccggtcgatgtagttgccgagaaactcgaccagcgcgtcgcgggtgaccg
actgcacccactggccatgccggccataggcttgcagcgtccagaattccgaggccatcagcgccgagcggacggatttg
gacgagccgtcccaatgcgaccacagaaagtcgatggcactctgagcgaccgtaatcaccaaaccggcattgattccgc
gtgacgccatcgtagtctccctctcagcttgccgagcggacgctcgtgaacggaactcgttcagcaaaagcagtgccaggg
agaccgaaacaaaaagccgtacctcgttcggatgcgattcgccggaaatccagaccagacacgggaggagtggccatg
aacgcgcaagaagagcaacgggcgcgcgacgcgctgaaatgcatcgaccgcgatctcgacgcgctcgacatccagat
cgccgccttgcaggcgcggcaacgatccgggacctccctcgaccaatacatccgcgtccgtgacgccctgctgacggag
gctcagacgatcctgacccagctcgatcgccgccccggcaaccagtcccctcccccgccggtggcgggggagggctag
aaaggggccccgcgtcaacacttcggcacaatggttctgttaggcgctctgaaacgctctcaggggagtcggtcaccaga
atctcaagcaggtcaccgttggaatgggcctgatagacgttagcaacgtccatttttccggccagcagactcatcggatcgg
ggtaagtcaggtgaaagaacgtttggcctgcttctaggctgagcgcaaggcggtc
6
2.2 Análise da seqüência por Frame Plot
Programa que identifica as ORFs (open reading frame) da seqüência fornecida, ou

seja, os possíveis inícios e términos de pedaços codificantes desta seqüência. Ao inserir a
seqüência no programa o seguinte gráfico foi obtido, sendo possível observar as possíveis
ORFs e a correspondente porcentagem de G+C na terceira base.
Fig.1 – Resultado obtido pelo programa FramePlot, para análise de ORFs
As ORFs que correspondem a uma maior porcentagem de G+C (ou seja, acima da
linha pontilhada na parte de baixo do gráfico) foram selecionadas (quadros pretos) e a
analise da potencialidade deste trecho de sequencia codificar algo importante foi feita
utilizando o programa Blastp.
Os parâmetros utilizados no programa foram:
 Window Size: 40 códons

 Step Size: 5 códons
 Minimum ORF size: 20 códons
 Start códon: ATG
 Incomplete ORF: on
7
2.3 BLAST
Blast (Basic Local Alignment Search Tool) é um algoritmo usado para comparar
seqüências de informações biológicas tais como segmentos de DNA, seqüências de
aminoácidos, entre outros, com seqüências contidas em uma biblioteca online de dados.
2.3.1 ORF 1 (rosa)
MGGVTPPSPAPSSAPRPNPSRPNMLKRLAAAYAESVRLKLLALVLAPLLV
GAPVLLMIVWAWGTQGYDQLLVNKVSSDLGTARQFFDRVQMSLRNGLEGV
ATSHRLALILERGTPADLRRLLEEEAEEHGLDYLLLLDAGGMVRAG
Nesta seqüência a porcentagem de G+C na terceira base é de 91,8%.
Fig.2 – Resultado obtido para primeira ORF analisada em BLAST.
Para esta ORF não foi detectado pelo programa nenhum domínio conservado
provável e com um valor E de 7e-21 esta ORF codifica um provável sensor de histidina
quinase do microrganismo Azoarcus SP BH72 que é uma betapreotobacteria.
8
2.3.2 ORF2 (verde)
MEDQAKPSILVVDDEEGICSFLSRALERRGWRVEVAGSAEEGARTLERIH
AEVIILDVALPGRSGLDWLKELMAGGYAGEVILVTAFADMDTAIDALRSG
AADFVLKPFRVEQILNSIDRCVERTRLTRENYVLRRQLSKKDNGRDEIVG
RSDAMMRLRSLVQRVAPTPSTVLIQGESGVGKELVARALHDLSPRADRPF
VAVNCAAISADLIEAELFGHARGAFTGAKDARKGLFYYAHGGTLFLDEIG
ELSLTLQSKLLRVLEERRIRPVGSEQEVPVDVRVVTATNRDLKAEAAAGR
FRPDLFYRLEVMTLTIPPLRQRAVDVPELAALFMRFLPVRLAVPPLTLTP
EVTRALMCHSWPGNVRELRNFVERSLLLGEFPLDDLDTANAAAVEAGLAA
DPSLCAAAVAGNPPCAPCPVRHVRMDGDSDVLPLAEVEKRHILTVLARCD
GSKTRAADLLGVSRKTLDRKCVEWGV

Composição de Bases: 194 A 486 C 534 G 217 T
Fig.3 – Resultado obtido para a segunda ORF analisada em BLAST.
Esse trecho da seqüência provavelmente codifica uma proteína responsável por

regulação dependente de sigma 54 (“sigma-54 dependent response regulator”) presente por
9
exemplo no microrganismo no microrganismo Azoarcus SP BH72, que é uma
betapreotobacteria com um valor de E de 1e-166.
2.3.3 ORF3 (azul)
MRRSPAHRTDREPTVTDTSGSFVHAGPRIADTGISDAEWQARIDLAAAYR
LVAERGWDDLIYTHISLAVPGEPGRFLINPFGLTFGEVTASNLVKIDIHG
AIIGDSPHPVNTTGFVIHGAVHAAREDARCVMHLHNEAAVAVSMLKDGLL
PLSQHALRFYRDLAYHRYEGLALTDSEKVRLVANLGTRRAMLLHNHGSLV
TGRTVAEAFCLMDMLDKACRMQLAAQATGAELVSPPPELCDKTYRQLTAD
PEPEGELEWPALLRRLDRRCPDYRN
Fig. 4 – Resultado obtido para terceira ORF analisada em BLAST.
Esta região selecionada provavelmente codifica uma superfamília da proteína

aldolase 2 (aldolase II superfamily protein) presente por exemplo no microrganismo
10
Janthinobacterium sp. Marseille que também é uma Betaproteobacteria com valor de E igual
a 2e-91.
2.3.4 ORF4 (vermelha)
MASRGINAGLVITVAQSAIDFLWSHWDGSSKSVRSALMASEFWTLQAYGR
HGQWVQSVTRDALVEFLGNYIDRRMEVGDSEDRAVATAVYRLTGKTVGAV
Fig. 5 – Resultado obtido para quarta ORF analisada em BLAST.
Para esta ORF o programa não detectou nenhum domínio conservado e o número
de seqüência que produziram um alinhamento com a seqüência da ORF 4 foi muito baixo
(apenas 4) e o primeiro resultado obtido sugere ser uma proteína hipotética de Vitis vinefera
(eucarioto), com um valor de E de 1.2, muito alto em relação aos outros alinhamento, por
isso esta ORF não será considerada nas análises posteriores.
2.3.5 ORF5 (roxo)
MNAQEEQRARDALKCIDRDLDALDIQIAALQARQRSGTSLDQYIRVRDAL
LTEAQTILTQLDRRPGNQSPPPPVAGEG
Fig. 6 – Resultado obtido para quinta ORF analisada em BLAST.
11
Para esta ORF o programa não detectou nenhum domínio conservado e o número
de seqüência produzido pelo alinhamento com a seqüência da ORF 5 foi muito baixo
(apenas 4) e o primeiro resultado obtido sugere ser algum produto gênico relacionado com
transporte de soluto pelo symport de sódio (“transporter, solute:sodium symporter (SSS)
family”) do microrganismo Burkholderia multivorans CGD1, que é uma proteobacteria, e cujo
valor de E foi 1.3. Já o segundo resultado sugere que se trata de proteína envolvida com a
estruturta do cromossomo (“structural maintenance of chromosomes protein 5”) de Xenopus
laevis,um eucarionte, cujo valor de E é 1.4. Devido ao baixo número de alinhamentos
encontrados pelo programa, pelas diferenças dos resultados e pelos altos valores de E
correspondente, esta ORF não será considerada nas análises posteriores.
2.4 Clustal
A série de programas Clustal é amplamente usada em biologia molecular para o

alinhamento múltiplo tanto de seqüências de ácidos nucléicos quanto de proteínas e
também para a preparação de árvores filogenéticas. A popularidade desse programa está
relacionada a uma série de fatores como a precisão dos resultados, a robustez,
portabilidade e o conforto que proporciona aos seus usuários. (CHENNA et al, 2003)
Alinhamentos de seqüências biológicas são ferramentas que, além de serem usadas
para análise de regiões conservadas e de regiões que sofreram mutações em seqüências
homólogas, também servem como ponto de partida para outras aplicações em Biologia
Computacional, como o estudo de estruturas secundárias de proteínas e a construção de
árvores filogenéticas. (BRITO, 2003)
Com o intuito de comparar a seqüência de aminoácidos das proteínas identificadas
na seqüência genética que estamos trabalhando com a seqüência de aminoácidos de outros
microrganismos e fazer uma árvore filogenética utilizamos o software Clustal, mais
especificamente o seu módulo Clustal W.
O programa é disponível online e pode ser encontrado na página:
http://align.genome.jp/. O uso desse programa, como citado na literatura, é simples, basta
adicionar um “>” seguido do título (como por exemplo o nome de um microrganismo), e na
próxima linha incluir a seqüência de aminoácidos que pretende-se comparar, logo abaixo
coloca-se as seqüências de aminoácidos que serão alinhadas a essa primeira, utilizando o
mesmo método já descrito.
Para a seleção dos microrganismos que iríamos fazer o alinhamento, através do
Clustal, utilizamos a ferramenta Blastp e levamos em consideração a classe e filo que o
12
microrganismo com a seqüência de aminoácidos mais próxima da seqüência estudada
pertencia. Sendo assim, procurando no banco de dados do NCBI pela taxonomia de vários
microrganismos, encontramos uma função que permitia realizar a comparação das nossas
ORF’s com a seqüência de diversos microrganismos, que tivessem seus genomas
previamente interpretados, de acordo com a nossa escolha. Essa função encontra-se na
página: http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi?
organism=375286&database=375286
A escolha dos microrganismos foi feita de forma aleatória, levando em consideração
sua classe e filo, desse modo escolhemos microrganismos que pertenciam desde do filo das
proteobactérias – com as classes variando entre alfa, beta, delta e gama – até dos filos
firmicutes e cianobactérias, alteramos também o domínio escolhendo microrganismo
Arquea. Isso feito, recolhemos as seqüências de aminoácidos correlatas e jogamos no
Clustal que a partir do alinhamento desenhou as árvores filogenéticas desses
microrganismo, as quais seguem a seguir:
ORF 2:
Fig. 7 – Árvore filogenética obtida pelo programa Clustal, para análise da ORF 2.
13
ORF 3:
Fig. 8 – Árvore filogenética obtida pelo programa Clustal, para análise da ORF 3.
A interpretação das árvores nos mostra que nem sempre microrganismos

pertencentes à mesma classe foram agrupados juntos, enquanto que algumas vezes
microrganismos de classes diferentes foram agrupados juntamente, isso acontece pois
analisamos apenas uma pequena seqüência de aminoácidos, a qual revelou uma razoável
predição sobre a separação evolutiva que os microrganismos escolhidos tiveram.
Em anexo encontram-se o nome científico e classificação taxonômica dos
microrganismos escolhidos, além das seqüências de aminoácidos usadas para o
alinhamento e a função dessas proteínas. Encontra-se também em anexo árvores
filogenéticas obtidas do software blastp.
14
2.5 String
String é um banco de dados e um recurso online (http://string.embl.de/) dedicado à

previsão de interações proteína-proteína, sendo responsável por realizar interações físicas
(estruturais) e funcionais. (JENSEN et al, 2008).
Interações funcionais entre proteínas podem ser inferidas de associações
genômicas entre os genes que codificam as proteínas: grupos de genes que são requeridos
para a mesma função em geral são localizados próximos no genoma (em procariotos).
(MERING et al, 2003).
Estas associações podem ser entendidas, em uma perspectiva funcional, como
uma ligação física, mas também podem significar interações indiretas como participação na
mesma via metabólica ou num mesmo processo celular. (MERING et al, 2004)
Desse modo um dos objetivos do software String é realizar uma análise de
vizinhança do gene que codifica dada proteína em diferentes microrganismos para que
possamos inferir se aquele gene e os genes vizinhos são conservados em diferentes
espécies, caso isso ocorra podemos predizer que a função da proteína em estudo deve ser
a mesma nesses diferentes microrganismos.
O string ainda é conhecido por simplificar o acesso a informações sobre
associação de proteínas de uma forma compreensível e com bom controle de qualidade
para um grande número de organismos. (MERING et al, 2004)
Desse modo utilizamos este programa para realizar um estudo sobre a
conservação dos genes de vizinhança ao gene identificado com uma ORF no frameplot. Os
resultados obtidos seguem abaixo.
Analisando os resultados podemos perceber que a ORF 2, que codifica um
proteína reguladora de sigma-54, apresenta uma vizinhança mais conservada do que a ORF
3, a qual codifica uma aldolase de classe II, este resultado pode indicar que a função da
proteína codificada pela ORF 2 possivelmente seja a mesma para diferentes
microrganismos. Somando-se a esse fato o interesse no estudo de proteínas reguladores,
as quais quando mutadas podem controlar uma série de genes e permitir um estudo mais
aprofundado sobre determinada via metabólica, temos uma justificativa para a clonagem do
gene da ORF 2.
ORF 2:
15
Fig. 9 – Resultado obtido pelo programa String, para análise de vizinhança da ORF 2.
Amarelo: sinal de transcrição histidina quinase
Azul: proteínas reguladoras, em geral sigma 54
Verde: regulador de transcrição sigma 54
Marrom: proteína de regulação da fixação de nitrogênio
Rosa: regulador de transcrição
Dessa análise pode-se inferir que talvez a proteína reguladora sigma 54 esteja relacionada
com a fixação de nitrogênio, uma vez que possuem genes próximos a ela com essa função
e que são conservados em diferentes microrganismos. Contudo, segundo a literatura, a
proteína reguladora sigma 54 pode regular a transcrição de genes bem distantes da região
onde ela é codificada, de modo que não podemos ter certeza da função dessa proteína.
ORF 3:
16
Fig. 10 – Resultado obtido pelo programa String, para análise de vizinhança da ORF 3.
Roxo: Aldolase classe II
Em anexo podem ser visualizados os genes vizinhos das ORF’s 2 e 3 para os

microrganismos: Azoarcus sp. BH72 e Janthinobacterium sp. Marseille, respectivamente, em
forma de árvore.
2.6 Análise de Domínios
A unidade fundamental da estrutura de proteínas, o domínio, é definida como uma

unidade capaz de, independentemente, dobrar-se em uma estrutura terciária estável (BAE
et al, 2005). Na evolução molecular, tais domínios têm sido utilizados como “blocos de
construção”, os quais foram recombinados em diferentes combinações para modular
17
funções protéicas. Assim, domínios conservados são definidos como unidades recorrentes
na evolução molecular, extensões que são possíveis de serem determinadas por
seqüenciamento e análise estrutural. Por conterem motivos, permitem a detecção em
seqüências polipeptídicas.
Utilizando a ferramenta NCBI CD-Search Tool , foram analisados os possíveis domínios
conservados da proteína codificada pelo gene apresentado. Foi utilizada a forma concisa,
para obter os resultados mais específicos.
Fig.11 – Resultado obtido pelo programa CD-Search Tool para análise de domínio da ORF 2.
Selecionando o hit que apresentou o menor valor de erro (2e-130), verifica-se que
corresponde a um multi-domínio que possui 3 domínios simples. O domínio apresentado
indica ser um regulador de respostas contendo domínio sensor do regulador tipo REC da
família Che-Y, ATPase do tipo AAA+ e um domínio de ligação de DNA do tipo HTH.
18
Reguladores de respostas do tipo Che-Y geralmente estão envolvidos em sistemas de
dois componentes. Os sistemas de dois componentes são comuns e regulam a expressão
de genes necessários para diversas funções celulares, como metabolismo de nitrogênio e
fosfato, colonização e infecção de hospedeiro, transportadores de íons, resistência a
antibióticos, estresse oxidativo e adaptação a alterações de pH (STOCK, ROBINSON &
GOUDREAU, 2000) .
O domínio de ligação ao DNA é um motivo do tipo hélice-volta-hélice (HTH), que
permite a ligação do regulador de transcrição a seqüências ativadoras específicas do
promotor tipo σ54 (MORETT & SEGOVIA, 1993) e encontra-se na porção N-terminal da
proteína.
A porção central possui um domínio AAA, domínio de ATPases do tipo AAA+, capaz de
hidrolisar nucleotídeos, sendo portanto associadas a várias atividades celulares e funcionam
como chaperonas moleculares. É encontrado neste domínio o motivo GAFTGA,
absolutamente conservado nas enhancer-binding proteins (EBPs) bacterianos. Acredita-se
que esta seqüência de aminoácidos seja responsável pela interação com o fator σ 54 e é
essencial para a hidrólise de ATP e formação de complexo aberto (ZHANG et al, 2002).
2.7 Mapa de Restrição
Um mapa de restrição consiste na identificação dos sítios de clivagem das diversas

enzimas que se tenha interessa em avaliar. No nosso caso foi utilizado o programa
RestrictionMapper, que fornecendo a seqüência é capaz de localizar todos os sítios de
restrição para as enzimas selecionadas. No nosso caso decidiu-se por optar fazer uma
analise com todas as enzimas do banco de dados (os resultados são apresentados nos
anexos). Essa analise é importante, pois ao se criar estratégia de clonagem será necessário
o uso de enzimas de restrição para permitir a inserção da seqüência amplificada no devido
vetor. A seqüência de interesse que será clonada neste trabalho é a responsável pela
transcrição da proteína regulatória sigma 54, desta forma é interessante identificar algumas
enzimas que não clivem em regiões internar a de interesse na clonagem. Alguns exemplos
são:
 Enzima: ApaLI, que cliva seqüência GTGCAC, primer 5 na posição 1927

 Enzima: Sml1, seqüência que cliva CTYRAG, primer 5, nas posições 328 e 3954
 Enzima: Nsp1, seqüência que cliva RCATGY, primer 3, nas posições 376 e 2681
 Enzima: Sml1, seqüência que cliva CTYRAG, primer 5, nas posições 328 e 3954
19
Na descrição da estratégia de clonagem serão descritas quais enzimas deverão ser
utilizadas entre as encontradas e descritas no mapa de restrição.
 Ver anexo 5.1 para lista completa das enzimas de restrição do mapa de restrição.
Exemplo de mapa de restrição (gráficamente) para :
Fig. 12 – Exemplo de mapa de restrição.
2.8 Região Promotora
O primeiro passo para que a célula tenha a informação necessária de suas

instruções genéticas é a transcrição. A transcrição começa com a abertura e a
desespiralização de uma pequena porção da dupla hélice de DNA, para expor as bases em
cada fita de DNA. Uma das duas fitas então, age como molde para a síntese da molécula de
RNA. O transcrito é, portanto, aumentado em um nucleotídeo por vez e possui uma
seqüência de nucleotídeos exatamente complementar à fita de DNA utilizada como molde.
As enzimas que realizam a transcrição são denominadas RNA polimerases. Elas
catalisam a formação de pontes fosfodiéster que ligam os nucleotídeos entre si para formar
uma cadeia linear.
20
A iniciação da transcrição é um passo extremamente importante na expressão de um
gene, porque este é o ponto principal pelo qual a célula regula quais as proteínas que
devem ser produzidas, e em qual freqüência. A RNA polimerase bacteriana é um complexo
composto por várias subunidades e pode ser isolada em duas formas: a holoenzima, que
possui as subunidades α2ββ’σ, capaz de reconhecer promotores e iniciar a transcrição; e a
apoenzima, que possui todas as subunidade, exceto a σ, sendo então incapaz de inciaiar a
síntese de RNA a partir de moltes nativos (Kumar, 1981). Uma subunidade destacável,
denominada fator sigma (σ), é responsável pelo reconhecimento e ligação a seqüência
específicas do DNA, denominadas promotores (Wösten, 1998). As moléculas de RNA
polimerase aderem apenas fracamente ao DNA bacteriano quando colidem com ele, e uma
molécula de polimerase desliza rapidamente ao longo da molécula de DNA até dissociar-se
novamente. Entretanto, quando a polimerase desliza de uma região dupla-hélice de DNA
denominada de promotor, uma seqüência especial de nucleotídeos indicando o ponto inicial
para a síntese de RNA se liga firmemente à mesma. A polimerase, utilizando seu fator
sigma, reconhece a seqüência de DNA por estabelecimento de contatos específicos com
porções de bases que estão expostas na face externa da hélice.
Os fatores σ de bactérias podem ser divididos em duas famílias: família σ 70 e família
σ54. Os fatores pertencentes à família σ 70 produzem uma holoenzima capaz de iniciar a
transcrição independente da presença de proteínas ativadoras (McClure, 1985). Os
pertencentes à família σ54 produzem uma holoenzima que é incapaz de formar o complexo
aberto na ausência de proteínas ativadoras (Sasse-Dwight & Gralla, 1998).
De acordo com o que foi verificado, é provável que o promotor seja dependente do
fator σ70. Tais promotores possuem características que os diferenciam dos outros
promotores de bactérias. A holoenzima RNA-polimerase/σ 54 reconhece uma seqüência
promotora distinta da reconhecida pela RNA-polimerase/σ70. Esta sequência é caracterizada
pelos dinucleotídeos “GG” e “GC” localizados nas posições -24 e -12 em relação ao início de
transcrição (Kustu et al, 1989). Assim, o provável promotor da seqüência analisada para o
gene de interesse encontra-se na posição 3540, na seqüência consenso.
2.9 Região Terminadora
A região de terminação da tradução é definida de acordo com a composição das

bases, na presença de códons de parada ou stop-codons. No caso do gene de interesse do
presente trabalho, são formados pelas bases TGA na fita anti-senso. Portanto, seria a
sequência TCA, na posição 432.
21
2.10 Identificação do sitio de ligação do ribossomo
O sítio de ligador de ribossomo, RBS (Ribossomal Binding Site) ou seqüência de

Shine-Delgarno (5’ –AGGAGGU—3’), é uma seqüência que está situada entre o promotor e
a região a ser traduzida, nos genes de E. coli. Os demais procariotos têm estruturas muito
semelhantes e os eucariotos não são muito diferentes neste aspecto. À frente de todo gene
ou região que será traduzida deve haver um RBS. A existência de um RBS entre genes de
um mRNA policistrônico é a forma pela qual a natureza garante a tradução do gene após a
liberação das duas sub-unidades do ribossomo quando termina a tradução do gene anterior.
Uma possível seqüência RBS foi encontrada entre o promotor e o primeiro gene do
operon. A seqüência é bem similar a seqüência consenso, no entanto, diferindo em um par
de base. Como este tipo de seqüência varia para cada espécie de procarioto, é bem
possível que seja realmente a seqüência Shine-Dalgarno.
A seqüência encontrada estava na posição 2473 da seqüência consenso, composta
pelas bases: TGAAGGA que, depois de transcrita para mRNA ficaria AGGAAGU, seqüência
muito similar à Shine Dalgarno.
2.11 Seqüência codificante final e os motivos estruturais identificados
0001- CGACCCGCCCGCCCGCACCATGCCTCCGGCGTCGAGCAGCAGCAGATAGT
0051- CCAGCCCGTGCTCCTCCGCCTCCTCCTCCAGCAGCCGGCGCAGGTCGGCG
0101-GGCGTGCCGCGCTCCAGAATCAGGGCCAACCGATGGGAGGTCGCCACCCC
0151- CTCCAGCCCGTTGCGCAGCGACATCTGCACCCGGTCGAAGAACTGCCGCG
0201- CCGTGCCCAGGTCGGAGCTGACCTTGTTGACCAGAAGCTGGTCGTAGCCC
0251- TGCGTCCCCCAGGCCCAGACGATCATCAGCAGAACCGGCGCGCCGACCAG
0301- CAGCGGCGCCAGCACCAGCGCCAGCAGCTTGAGCCGCACCGACTCCGCGT
0351- AGGCCGCCGCCAGCCGCTTCAGCATGTTGGGCCGGGACGGGTTGGGGCGA
0401- GGCGCCGAGGATGGCGCCGGAGATGGAGGCGTCACACCCCCCATTCCACG
0451- CATTTCCGGTCCAGCGTCTTGCGCGACACGCCCAGCAGATCGGCGGCGCG
0501- CGTCTTGCTGCCGTCACAGCGCGCCAGCACGGTCAGGATGTGGCGCTTCT
0551- CCACCTCGGCCAGCGGCAGCACGTCGCTGTCGCCGTCCATGCGGACGTGG
0601- CGGACCGGACAGGGGGCGCAGGGCGGGTTGCCGGCCACCGCGGCGGCGCA
0651- CAGGCTGGGGTCCGCGGCCAGGCCGGCCTCCACCGCCGCGGCGTTGGCGG
0701- TGTCCAGATCGTCGAGCGGGAATTCGCCGAGCAGCAGCGACCGCTCCACG
0751- AAGTTGCGCAGCTCGCGCACGTTGCCGGGCCAGGAATGGCACATCAGCGC
0801- CCGCGTCACCTCCGGCGTCAGGGTCAGCGGCGGCACGGCCAGCCGCACCG
22
0851- GCAGGAAGCGCATGAACAGCGCGGCCAGCTCCGGCACGTCCACCGCGCGC
0901- TGGCGCAGCGGCGGAATGGTCAGTGTCATCACCTCCAGCCGGTAGAACAG
0951- GTCCGGGCGGAAGCGCCCCGCCGCGGCCTCCGCCTTCAGGTCGCGGTTGG
1001- TGGCGGTGACCACGCGGACGTCCACCGGCACCTCCTGTTCGCTGCCGACC
1051- GGGCGGATGCGCCGCTCCTCCAGAACGCGCAGCAGCTTGGATTGCAGGGT
1101- CAGCGACAGCTCGCCGATCTCGTCCAGGAACAGCGTGCCGCCGTGGGCGT
1151- AGTAGAACAGCCCCTTGCGCGCGTCCTTGGCCCCGGTGAAGGCGCCGCGG
1201- GCGTGGCCGAACAGCTCCGCCTCGATCAGGTCGGCGGAGATCGCCGCGCA
1251- ATTCACCGCCACGAAGGGCCGGTCGGCGCGCGGCGACAGGTCGTGCAGCG
1301- CGCGGGCGACCAGCTCCTTGCCCACGCCGGACTCGCCCTGGATCAGCACG
1351- GTGGACGGGGTCGGCGCCACCCGCTGCACCAGCGAGCGCAACCGCATCAT
1401- GGCGTCCGACCGCCCGACAATCTCATCGCGCCCGTTGTCCTTCTTCGACA
1451- GCTGCCGACGCAGAACATAGTTCTCGCGGGTCAGCCGGGTGCGCTCGACG
1501- CAGCGGTCGATGGAGTTCAGGATCTGCTCGACCCGGAAGGGCTTCAGCAC
1551- GAAATCCGCGGCACCGGAGCGCAGGGCGTCGATGGCCGTGTCCATGTCGG
1601- CGAAGGCGGTGACCAGGATCACCTCGCCGGCGTAGCCGCCGGCCATCAGC
1651- TCCTTCAGCCAGTCCAGCCCCGAGCGGCCCGGCAGGGCGACGTCGAGGAT
1701- GATGACCTCGGCGTGGATGCGCTCCAGCGTCCGGGCGCCCTCCTCGGCGC
1751- TGCCCGCCACCTCGACCCGCCAGCCGCGCCGCTCCAGCGCGCGCGACAGA
1801- AAGCTGCAAATCCCCTCCTCATCGTCCACCACGAGGATGGAGGGCTTCGC
1851- CTGATCCTCCATTCGGCCCCCTTCCGGCGCGCTGCGGTCGGACGGGGTGG
1901- AGACAGGCGCGGTCATGGTCATCACTGTGCACTCGGCGGCGGAAAGCCCC
1951- ACAGTCTAAGGGAGCATAGCCAAGCCGGGCCAGTGATTTCCGAAATCCGG
2001- AATAGTCCCAGCGTCCCGCTTGGACAACCGCGCCGCGCCATGCGACGCTC
2051- TCCCGCTCATCGCACAGACCGGGAGCCGACCGTGACGGACACCAGCGGAT
2101- CATTTGTCCATGCCGGACCGCGCATCGCCGACACCGGCATCAGTGATGCC
2151- GAGTGGCAAGCCCGGATCGATCTCGCCGCCGCCTACCGCCTGGTCGCCGA
2201- GCGCGGCTGGGACGACCTGATCTACACCCACATCTCGCTGGCCGTGCCGG
2251- GGGAGCCGGGGCGCTTCCTCATCAACCCCTTCGGCCTGACCTTCGGCGAG
2301- GTGACCGCCTCCAACCTCGTGAAGATCGATATCCACGGCGCCATCATCGG
2351- CGACAGCCCCCACCCGGTGAATACCACCGGCTTCGTCATCCATGGCGCCG
2401- TCCATGCGGCGCGCGAGGACGCGCGCTGCGTCATGCACCTTCACAACGAG
2451- GCGGCGGTGGCGGTGTCGATGCTGAAGGACGGGCTCCTCCCGCTGTCCCA
2501- GCACGCCCTGCGCTTTTACCGCGACCTCGCCTATCACCGGTACGAGGGGC
2551- TGGCCCTGACCGACAGCGAGAAGGTCCGCCTCGTCGCCAATCTCGGCACC
2601- CGCCGGGCGATGCTCCTCCACAACCACGGCAGTCTGGTGACCGGGCGCAC
2651- GGTGGCGGAGGCCTTCTGCCTGATGGACATGCTGGACAAGGCGTGCCGGA
23
2701- TGCAACTCGCCGCGCAGGCCACTGGCGCGGAACTGGTGTCGCCGCCGCCG
2751- GAGCTGTGCGACAAGACCTACCGGCAACTCACCGCCGATCCGGAGCCGGA
2801- AGGCGAACTGGAATGGCCGGCGCTGCTGCGACGCCTGGACCGGCGCTGCC
2851- CGGACTACAGGAACTGAGCTTTCCGGACCGCGGTCCGCAACAGAGGGGAT
2901- GGAACGACTATGCCGCTGATCAACGTTCAGCTTTTCGAAGGCCGCACGCT
2951- GGAGCAGAAGCGCGCCTACGCCAAGGCGCTCACCGACGCCTCGGTCGCGG
3001- TGCTCGGCTGCAGCCCGGAGGCGGTCGATGTCATCTTCCACGACGTGAAG
3051- AAGAGCGATTGGGCCAGCGGCGGCAAGCTGTGGTCCGACCCCGAGTGACA
3101- TTCGCTTCCCGGACGCCCATGGGAAGCATTGCTCACCCCATGGGCATCCG
3151- GACAAAAAACAGGCAGACCAATCCCTGGCCTGCGTTCAAACCGCACCCAC
3201- CGTCTTGCCCGTGAGACGGTAAACCGCGGTGGCGACCGCCCGGTCCTCGC
3251- TGTCGCCGACCTCCATGCGCCGGTCGATGTAGTTGCCGAGAAACTCGACC
3301- AGCGCGTCGCGGGTGACCGACTGCACCCACTGGCCATGCCGGCCATAGGC
3351- TTGCAGCGTCCAGAATTCCGAGGCCATCAGCGCCGAGCGGACGGATTTGG
3401- ACGAGCCGTCCCAATGCGACCACAGAAAGTCGATGGCACTCTGAGCGACC
3451- GTAATCACCAAACCGGCATTGATTCCGCGTGACGCCATCGTAGTCTCCCT
3501- CTCAGCTTGCCGAGCGGACGCTCGTGAACGGAACTCGTTCAGCAAAAGCA
3551- GTGCCAGGGAGACCGAAACAAAAAGCCGTACCTCGTTCGGATGCGATTCG
3601- CCGGAAATCCAGACCAGACACGGGAGGAGTGGCCATGAACGCGCAAGAAG
3651- AGCAACGGGCGCGCGACGCGCTGAAATGCATCGACCGCGATCTCGACGCG
3701- CTCGACATCCAGATCGCCGCCTTGCAGGCGCGGCAACGATCCGGGACCTC
3751- CCTCGACCAATACATCCGCGTCCGTGACGCCCTGCTGACGGAGGCTCAGA
3801- CGATCCTGACCCAGCTCGATCGCCGCCCCGGCAACCAGTCCCCTCCCCCG
3851- CCGGTGGCGGGGGAGGGCTAGAAAGGGGCCCCGCGTCAACACTTCGGCAC
3901- AATGGTTCTGTTAGGCGCTCTGAAACGCTCTCAGGGGAGTCGGTCACCAG
3951- AATCTCAAGCAGGTCACCGTTGGAATGGGCCTGATAGACGTTAGCAACGT
4001- CCATTTTTCCGGCCAGCAGACTCATCGGATCGGGGTAAGTCAGGTGAAAG
4051- AACGTTTGGCCTGCTTCTAGGCTGAGCGCAAGGCGGTC
VERDE: Seqüência da proteína regulatória dependente de sigma 54

LARANJA: Códon de início
ROSA: Códon de parada
AZUL: Sítio de ligação de ribossomo
ROXO: Promotor
2.12 Estratégia de clonagem para expressar a proteína
24
O próximo passo após a identificação da seqüência é planejar um esquema de
clonagem gênica para expressar a proteína de interesse do fragmento. No nosso caso a
proteína escolhida foi a proteína regulatória sigam 54, e a justificativa além daqueles
apresentados na analise de vizinhanças, se baseia na possível importância de aplicação
desta proteína. Essa importância será melhor elucida no tópico sobre a importância do gene,
mas de qualquer forma é possível citar que por ser uma proteína regulatória envolvida com
sigma 54 provavelmente esta relacionada com a regulação da transcrição de algum ou
alguns outros genes. Desta forma, cloná-la torna-se interessante frente a possibilidade de
poder modificá-la para torná-la mais eficiente ou de ação mais próxima à desejada em
algum outro processo que evolva sua ação como regulador.
A clonagem gênica pode ser realizada pela inserção de uma molécula de DNA num
vetor para produzir uma molécula recombinante. Ambos os fragmentos de DNA, seqüência
e vetor devem ser clivados pelas mesmas enzimas de restrição, e então misturados numa
solução adequada para que ocorra o encontro das pontas aleatoriamente. Dependendo a
situação, enzimas escolhidas, o fragmento do seu DNA pode ser inserido na direção
contrária. O vetor então é inserido numa célula hospedeira e passa a se multiplicar
juntamente com a célula. No entanto por este método de clonagem e amplificação pode
haver algumas dificuldades, entre elas como se deve clivar com enzimas corre-se o risco de
clivar a seqüência de interesse no meio, inserir fragmentos que não sejam aquele de
interesse, inserir na direção contraria.
Uma segunda estratégia é realizar primeiramente a amplificação da seqüência por
PCR. PCR é a sigla para reação em cadeia da polimerase, que se trata de um método de
amplificação do DNA sem a utilização de organismos vivos. Ela é executada em um único
tubo de ensaio, a partir de uma mistura de DNA com um conjunto de reagentes.
Numa reação de PCR as etapas básicas são:
1. Desnaturação: A mistura é aquecida a 94°C (temperatura na qual as pontes de
hidrogênio que mantém as duas fitas de DNA unidas se rompem, liberando as fitas
simples).
2. Anelamento: Mistura resfriada a 50 e 60°C (as duas fitas originais poderiam voltar a
se unir mas isso não acontece pois na mistura há uma seria de pequenas
moléculas de DNA, os iniciadores, que se anelam rapidamente ao DNA).
3. Extensão: A temperatura é elevada a 74°C (Temp. ótima para a atividade da DNA-
polimerase de Taq). Neste estagio, esta DNA polimerase liga-se a uma das
extremidades dos iniciadores e sintetiza nova fita de DNA complementar a fita
molde.
4. O processo descrito a partir do item 1 então é repedido novamente até que se
tenha o tamanho de amplificação desejada.
25
Após a amplificação com PCR as etapas seguintes da clonagem são:
 Digestão, através da(s) mesma(s) enzima(s), dos vetores e dos fragmentos
amplificados para gerar pontas coesivas em ambos;
 União pelas pontas coesivas entre os vetores e os fragmentos de interesse (DNA
ligase);
 Transformação da célula hospedeira (microrganismo);
 Seleção dos transformantes;
 Superexpressão e purificação do produto.
2.12.1 Vetor escolhido para posterior clonagem e Microganismo
O vetor escolhido foi pET28a devido ao fato de que tem um promotor forte ou seja é
transcrito pela T7 RNA polimerase, a qual é muito seletiva e ativa, sendo capaz de alongar
cadeias de RNA aproximadamente 5 vezes mais rápido que a RNA polimerase de E. coli.
Alguns vetores pET podem apresentam o promotor T7-lac, assim a expressão da proteína
esta sob o controle lac e reduzindo portanto a expressão da proteína alvo na ausência de
IPTG.
26
Fig. 13 - Vetor pET-28 a ( Novagen) usado para realização do processo de clonagem
O microrganismo transformado por este vetor será BL21(DE3) Escherichia coli, pois
possui gene codificador de RNA polimerase T7, necessária para a expressão de proteínas
heterólogas a partir do vetor pET28a. Além disso, a E. coli possui metabolismo elucidado e,
portanto, seu cultivo e regulação de genes ficam facilitados.
2.12.2 PCR com primers mutagênicos
O processo para realização da PCR já foi descrito previamente, no entanto não se

entra em detalhes quanto ao seu funcionamento, por exemplo, o que são os iniciadores
(primers). Esses primers são pequenas seqüências de DNA que podem ser montadas de
acordo com o interesse da amplificação, ou seja, podem ser criados de maneira a anelar
com determinada parte da seqüência para que ocorra amplificação somente do trecho do
gene desejado. Às vezes é interessante utilizar primers mutagênicos, que são formados por
uma seqüência de 20 nucleotídeos anterior ao códon de iniciação (ATG) e os 30 posteriores
ao códon de término da seqüência de interesse. O início dos primers permanece igual ao
DNA; o interior, entretanto, vai ser modificado, incluído aí sítio de reconhecimento para as
enzimas de restrição. Desta forma, após a amplificação você vai ter diversos fragmentos
contendo seu gene de interesse e seqüencia nas pontas contendo sitio de restrição de
enzimas para poder inseri-lo no vetor escolhido.
27
2.12.3 Escolha da Enzima de Restrição
A enzima escolhida para fazer a digestão do vetor e dos fragmentos de DNA

amplificados por PCR tem quer ser capaz de clivar o vetor e clivar os primers para assim
criar pontas que sejam complementares e que possam se unir originando o vetor
modificado. O resultado para avaliação da clivagem pelos sítios de clivagem que existem no
vetor escolhido foi o seguinte:
Name: Untitled
Conformation: linear
Enzymes: BamHI, EagI, EcoRI, HindIII, NcoI, NdeI, NheI, NotI, SacI, SalI, XhoI
Noncutters: BamHI, EagI, HindIII, NdeI, NheI, NotI, SacI, SalI, XhoI
Name Sequence Site Length Overhang Frequency Cut Positions

EcoRI GAATTC 6 five_prime 2 720, 3363
NcoI CCATGG 6 five_prime 3 2390, 3117, 3138
Tabela 1 – Enzimas de restrição com respectivas seqüências do sítio de clivagem, freqüência e
posição de corte.
Percebe-se que a única enzima que não pode ser utilizada é a EcoRI pois,
considerando que a seqüência da proteína pela qual se optou para fazer a clonagem está
entre as posições 432 e 1867 e a EcoRI cliva na posição 720. O fato que permite que
qualquer uma das outras enzimas seja usada é que , todas elas clivam o vetor no MSC e
como a opção de primer escolhida é o primer mutagênico, é possível criar as pequenas
seqüências inserindo a da enzima que se escolher trabalhar.
A enzima que vamos escolher trabalhar é a Bam H1 que ao clivar sua seqüência de
reconhecimento cria pontas coesivas (aumentam a especificidade da união entre vetor e o
fragmento amplificado) e tem uma seqüência de reconhecimento relativamente pequena o
que possibilita a montagem do primer mutagênico:
Fig. 14 – Local de clivagem da enzima BamH1
28
2.12.4 Desenho do primer
 Considerando que a fita da forma que foi apresenta esta no sentido 5’-3’
Primer inicial complementar a fita 5’-3’ : ACCGCGCCTAGGACCTCCGC

Primer inicial complementar a fita 3’-5’ : TGGCGCGGATCCTGGAGGCG
Primer final complementar a fita 5’-3’ : AGCCGGCCTAGGGCCGCGCG
Primer final complementar a fita 3’-5’ : TCGGCCGGATCCCGGCGCGC
2.12.5 Montagem do Vetor
Após a amplificação por PCR usando primers mutagênicos, os fragmentos devem

ser tratados com enzima BamH1 da mesma forma que o vetor afim de se criar pontas
coesivas em todas as pontas. Após isso deve se fazer a mistura destas soluções com a
adição de DNA ligase que fará com que as pontas coesivas dos fragmentos hibridizem, e a
DNA ligase pode sintetizar as ligações fosfodiéster necessárias. Pode-se notar que nada
ocorre quanto ao frame de leitura, pois apesar de o produto de clonagem possuir alguns
aminoácidos a mais nas porções 5’ e 3’, toda a região codificadora original estará
preservada, e espera-se que os resíduos nas pontas 5’ e 3’ (His-Tag) devam interferir pouco
na atividade da proteína. Caso eles interfiram, devem ser retirados quimicamente após a
obtenção dessa proteína de fusão. O próximo passo é a inserção deste vetor no
microrganismo escolhido, a BL21(DE3)Escherichia coli.
2.12.6 Transformação
Transformação é o processo de incorporação de moléculas de DNA, pela bactéria,

contidas no meio em que essa bactéria cresce. Muitas vezes esse DNA é incorporado, no
entanto não consegue sobreviver. A maioria das bactérias inclusive a E. coli incorpora
apenas quantidades limitadas de DNA sob circunstâncias normais, mas através de alguns
processos é possível as tornar competentes, esses processo são: a eletroporação e a
transformação com cloreto de cálcio.
A eletroporação é uma técnica na qual se misturam bactérias e o vetor em um único
tubo e aplica-se um choque elétrico na mistura, com o objetivo de desestabilizar a
29
membrana e permitir a entrada do vetor na bactéria. Ela é então rapidamente transferida
para meio de cultura e incubada a 37ºC para que possa se recuperar após o choque.
A transformação com cloreto de cálcio tem o mesmo objetivo. As bactérias e o vetor
são misturados com uma solução de cloreto de cálcio e sofrem um choque térmico. Os íons
cálcio têm a função de neutralizar as cargas negativas do DNA e da membrana bacteriana,
facilitando a passagem do vetor pela membrana no momento do choque térmico (que,
portanto, tem a mesma função do choque elétrico).
Escolhendo um destes processo na seqüência, deve-se testar quais células
conseguiram incorporar o vetor, e isso pode ser feito analisando-se as próprias propriedades
do vetor. O vetor pET28a apresenta genes de resistência ao antibiótico canamicina, ou seja
se fornecermos este antibiótico ao meio onde a célula esta sedo cultivada só sobreviverão
as células que tiverem o plasmidios contendo o gene de resistência.
2.12.7 Superexpressão e purificação
A E. coli da linhagem BL21(DE3) mais o vetor pET28a permitem um elevado

controle da produção da proteína com a cauda de histidinas na porção
carboxiterminal.Basicamente, os operadores Lac estão inibindo a transcrição de T7 RNA
pol. no genoma de BL21(DE3) E.coli e da proteína com His-Tag no vetor pET28a. Enquanto
isto acontece, a célula utiliza seu metabolismo normal para crescer e se reproduzir,
duplicando também o vetor com inserto. Quando você alcança uma quantidade suficiente
e desejada da biomassa (concentração de células de E. coli) pode-se adicionar IPTG no
meio. O IPTG está relacionado com o controle do operon lac, e quando este é presente inibe
os operadores Lac liberando o resto das transcrições.
No genoma, a RNA pol. de E.coli transcreve o gene para T7 RNA pol., que é
produzida pelos ribossomos e ganha atividade na célula. A T7 RNA pol. reconhece então
seu promotor no vetor, e transcreve a região codificadora contendo o fragmento da proteína.
Os ribossomos traduzem o mRNA, e a proteína regulatória sigma 54 com His-Tag é
finalmente produzida. Com esse sistema, como já foi dito anteriormente, tendo um promotor
que se liga fortemente tem-se um sistema com alta processividade.
A escolha do vetor pET28a além dos motivos já citados também esta relacionado
com a facilidade para a purificação da proteína. Isto ocorre devido ao fato deste vetor
possibilitar a clonagem em fusão com uma seqüência codificante para vários resíduos de
histidina (His) e portanto permite expressar e gerar uma proteína quimérica com uma
“cauda” de His, na posição N ou C terminal da mesma, isto permite, posteriormente, a
purificação do produto recombinante por cromatografia de afinidade em colunas de níquel.
30
3 FUNÇÃO DO GENE OU OPERON
3.1 Microrganismo e importância fisiológica do produto do gene
O gênero Azoarcus pode ser dividido em dois grupos de organismos de fixação de

nitrogênio, um de vida livre encontrado no solo e outro estritamente associado com plantas.
Sendo que os organismos associados com plantas estão sendo bastante estudados devido
à sua habilidade de contribuir para a fixação de nitrogênio nas plantas hospedeiras.
O microrganismo (Azoarcus.sp. BH72), que codifica uma proteína cuja proximidade
da seqüência de aminoácidos da orf identificada em nossa seqüência genética é alta, é um
fixador de nitrogênio obrigatoriamente endofítico, ou seja pertence ao segundo grupo do
gênero Azoarcus, que foi primeiramente isolado de raízes de grama Kaller em Punjab,
Paquistão. Este microrganismo, microaeróbio e mesófilo, coloniza tecidos das raízes sem
causar nenhuma doença e nunca foi encontrado livre no solo. Azoarcus.sp. BH72 tem sido
usado para estudar o mecanismo e regulação das interações micróbio-planta e para estudos
comparativos com outras bactérias de plantas patogênicas e não patogênicas.
A proteína de interesse é uma reguladora de transcrição dependente de sigma-54.
Para que possamos entender a função dessa proteína é necessário entender um pouco
mais sobre como ocorre a transcrição genética. A transcrição pode ser dividida em quatro
etapas: reconhecimento da região promotora do DNA, iniciação, alongamento e terminação.
Vamos voltar nossa atenção para a fase de iniciação.
A iniciação da transcrição é um processo complexo envolvendo muitos diferentes
passos. Estes passos são todos controlados por mecanismos regulatórios envolvidos na
expressão do gene, o que garante que as bactérias possam se adaptar a diferentes regimes
de crescimento.
Antes que a RNA polimerase (com subunidades α2ββ’, chamada de apoenzima)
transcreva o DNA ela deve combinar-se com uma subunidade sigma para forma a RNA
polimerase holoenzima, isso para que a RNA polimerase possa reconhecer a seqüência
promotora e iniciar a transcrição.
A subunidade σ54, codificada pelo gene rpoN, foi inicialmente encontrada em
enterobactérias, mas posteriormente foi descrita em muitas outras bactérias, incluindo tanto
bactérias gram-negativas quanto gram-positivas . Além disso o papel da sigma 54
historicamente está envolvida na regulação do metabolismo do nitrogênio em
proteobactérias.
A proteína ativadora de transcrição, identificada no nosso trabalho, se liga a uma
certa distância do promotor, em seqüência chamadas de UAS (upstream activator
31
sequence), essa ligação promove a oligomerização do DNA sendo que para que haja a
interação da proteína ativadora com a RNA polimerase é preciso a formação de uma dobra
na fita de DNA, conforme ilustrado abaixo:
Fig. 15 – Esquema de ativação de transcrição por proteínas reguladoras de transcrição dependentes

de σ54. Um dímero ou vários da proteína ativadora da transcrição liga-se às sequências UAS
enquanto a RNA-polimerase liga-se à região promotora. A formação de uma ação de DNA
permite que proteína ativadora de transcrição ligada a ATP interaja com a RNA-polimerase. A
hidrólise de ATP provoca a isomerização do complexo fechado a complexo aberto. (INVITTI,
A.L., modificado de Su et al, 1990)
Estes ativadores de transcrição dependente de sigma54 são também chamados de

EBPs (enhancer binding proteins) e possuem em geral 3 domínios estruturais como descrito
anteriormente na análise de domínios. A partir da interação RNA polimerase-ativador é que
começa a fase de alongamento da transcrição.
Dessa forma esses EBP’s apresentam uma grande importância, uma vez que estão
relacionados com a iniciação da transcrição, de modo que uma modificação genética dessas
proteínas pode permitir, por exemplo, o estudo das vias metabólicas relacionadas ao
nitrogênio, por exemplo.
32
3.2 Outros genes relevantes que podem fazer parte do operon
Outros genes que podem estar correlacionados com a função desse EBP podem ser
os genes relacionados com a via metabólica do nitrogênio, que se mostraram bem
conservados em diversos microrganismos e que historicamente são transcritos pela RNA
polimerase sigma54, de modo que sofrem o controle desses ativadores.
Além desse, outro gene que se mostrou conservado em diferentes linhagens de
microrganismos, foi o que codifica a histidina quinase, essa proteína funciona como um
sinalizador, cuja concentração é alterada devido a alterações ambientais, para a transcrição
do ativador de transcrição sigma54, objeto de nosso estudo.
Dessa forma podemos dizer que é possível que essa seqüência genética se trate
de operon, ou pelo menos de parte de um operon.
3.3 Características gerais da proteína codificada
ProtParam, da ExPASy, é uma ferramenta que permite verificar parâmetros físicos e

químicos da proteína codificada. O programa fornece dados de peso molecular, PI teórico,
composição de aminoácidos, composição atômica, coeficiente de extinção, tempo de meia-
vida esimado, índice de instabilidade, índice alifático e GRAVY (grand average of
hydropathicity).
É interessante obter tais informações para que, após a expressão da proteína, seja
possível realizar análises, baseadas nas características deduzidas a partir da sequência de
aminoácidos. Para a proteína de interesse, dado pela ORF 2, foram obtidos os valores:
Número de aminoácidos: 476
Peso molecular: 52220.2
pI teórico: 5.95
Composição de aminoácidos:
Ala (A) 56 11.8% Phe (F) 15 3.2%
Arg (R) 49 10.3% Pro (P) 25 5.3%
Asn (N) 9 1.9% Ser (S) 23 4.8%
Asp (D) 32 6.7% Thr (T) 21 4.4%
Cys (C) 9 1.9% Trp (W) 4 0.8%
Gln (Q) 8 1.7% Tyr (Y) 5 1.1%
Glu (E) 36 7.6% Val (V) 45 9.5%
Gly (G) 32 6.7% Pyl (O) 0 0.0%
His (H) 7 1.5% Sec (U) 0 0.0%
Ile (I) 17 3.6% (B) 0 0.0%
Leu (L) 60 12.6% (Z) 0 0.0%
Lys (K) 14 2.9% (X) 0 0.0%
Met (M) 9 1.9%
33
Número total de residues negativamente carregados(Asp + Glu): 68
Número total de residues positivamente carregados (Arg + Lys): 63
Composição atômica:
Carbono C 2297
Hidrogênio H 3748
Nitrogênio N 672
Oxigênio O 679
Enxofre S 18
Fórmula: C2297H3748N672O679S18
Número total de átomos: 7414
Coeficientes de extinção (em M-1 cm-1, a 280 nm, em água):
Coeficiente de ext. 29950

Abs 0.1% (=1 g/l) 0.574, considerando TODOS os residues Cys como meias-cisteínas
Coeficiente de ext. 29450

Abs 0.1% (=1 g/l) 0.564, considerando NENHUM resíduo Cys como meia-cisteína
Tempo de meia-vida estimado:
Considerando o N-terminal da sequência como metionina,

O tempo de meia-vida estimado é:
30 hours (reticulócitos de mamíferos, in vitro).
>20 horas (leveduras, in vivo).
>10 horas (Escherichia coli, in vivo).
Índice de instabilidade:
O índice de instabilidade computou como 39,72, indicando que a protein é estável.
Índice alifático: 102.27
GRAVY: -0.032
Informações sobre a outra ORF podem ser encontradas em anexo,
34
4 REFERÊNCIAS BIBLIOGRÁFICAS
BAE, K.; MALLICK, B.K.; ELSIK, C.G. Prediction of protein interdomain linker regions by
a hidden Markov model. Bioinformatics, 21, n. 102005, p. 2264-2270, 2005.
BLAST - Basic Local Alignment Search Tool em: NCBI. Disponível em:
<http://www.ncbi.nlm.nih.gov/BLAST/> Acesso em: 28 nov. 2009..
BPROM – Prediction of Bacterial Promoter em: Softberry. Disponível em:
<www.softberry.com> Acesso em: 29 nov. 2009.
BROWN, T.A. Clonagem Gênica e análise de DNA. Porto Alegre: Artmed 2003.
BUCK, M.; GALLEGOS, M.T.; STUDHOLME, D.J.; GUO, Y.; GRALLA, J.D. The Bacterial
Enhancer-Dependent σ54 (σN). Journal of Bacteriology, 182, n.15, p. 4129-4136, 2000.
CHENNA, R.; SUGAWARA, H.; KOIKE, T.; LOPEZ, R.; GIBSON, T.J.; HIGGINS, D.G.;
THOMPSON, J.D. Multiple sequence alignment with the Clkustal seris of programs.
Nucleic Acids Research., 31, n.13, p.3497-3500, 2003.
CLUSTALW - Multiple Sequence Alignment em: Align. Disponível em
<http://align.genome.jp/> Acesso em: 01 dez. 2009
DE BRITO, Rogério Theodoro. Alinhamento de Sequências Biológicas. 2003. 181.f.
Dissertação (Mestrado em Ciência da Computação) – Universidade de São Paulo, São
Paulo, 2003.
DE OLIVEIRA, Marco Aurélio Schüler. Efeito da mutação das cisteínas nas posições 414,
426, 446 ee 451 da proteína NifA de Herbaspirillum seropedicae. 2007. 101.f.
Dissertação (Mestrado em ciências-Bioquímica) Universidade Federal do Paraná,
Curitiba, 2007.
FINDTERM - Finding Terminators in bacterial genomes em: Softberry. Disponível em:
<www.softberry.com> Acesso em: 29 nov. 2009.
FRAMEPLOT 2.3.2 - Frame analysis predicts protein-coding region of high G+C
content bacterial DNA. Disponível em: <http://www.nih.go.jp/~jun/cgi-bin/frameplot.pl>
Acesso em: 28 nov. 2009.
INVITTI, Adriana Luckow. Determinação de sequências de DNA reconhecidas por
proteínas reguladoras de transcrição dependentes do fator sigma 54 da RNA-
polimerase de Herbaspirillum seropedicae. 2006. 129.f.Dissertação (Mestrado em
Ciências – Bioquímica) Universidade Federal do Paraná, Curitiba, 2006.
JENSEN, L.J.; KUHN, M.; STARK, M.; CHAFFRON, S.; CREEVEY, C.; MULLER, J.;
DOERKS, T.; JULIEN, P.; ROTH, A.; SIMONOVIC, M.; BORK, P.; MERING, C.V.
STRING 8 – a global view on proteins and their functional interactions in 630
organisms. Nucleic Acids Research, 37, D412-D416, 2009.
35
KUMAR, S.A. The Structure and Mechanism of Action of Bacterial DNA-Dependent
RNA polymerase. Prog. Biophys. Molec. Biol. V.38, p.163-210, 1981.
KUSTU, S.; SANTERO, E.; KEENER, J.; POPHAM, D.; WEISS, D. Expression of σ54
(ntrA)-dependent genes is probably united by a common mechanism. Microbiol Rev.
V.53(3), p. 367-376, 1989.
LEHNINGER, A.L.; NELSON, D.L.; COX, M.M. Princípios da Bioquímica. São Paulo:
Sarvier. 1995.
MC CLURE, W.R. Mechanism and control of Transcription Initiation in Prokaryotes.
Ann. Ver. Biochem. V.54, p.171-204, 1985.
MERING, C.V.; HUYNEN, D.J.; SCHMIDT, S.; BORK, P.; SNEL, B. STRING: a database of
predicted funciotnal associations between proteins. Nucleic Acids Research, re, n.1,.
p. 258-261, 2003.
MERING, C.V.; JENSEN, L.J.; SNEL,B.; HOOPER, S.D.; KRUPP, M.; FOGLIERINI, M.;
JOUFFRE, N.; HUYNEN, M.A.; BORK, P. STRING: known and predicted protein-
protein associations, integrated and transferred across organisms. Nucleic Acids
Research, 33, D433-D437, 2005.
MORETT, E.; SEGOVIA, R.L. Identificaion of the site of autophosphorylation of the
bacterial protein kinase/phosphatase NRII. J. Biol. Chem. v.266, p.6888-6893, 1991.
NCBI Conserved Domain Search in: NCBI. Disponível em: <http://www.ncbi.nlm.nih.gov>.
Acesso em: 05 dez. 2009.
NOVAGEN. 2002-2003. Protein Expression: Prokaryotic Expression: pETBlue and pET
System Overview. Novagen 2002-2003 Catalog. p 84-91
PROTPARAM in: ExPASy. Disponível em: < http://ca.expasy.org> Acesso em: 03 dez. 2009.
SASSE-DWIGHT, S.; GRALLA, J.D. Probing the Escherichia coli glnALG upstream
activation mechanism in vivo. Proc. Natl. Acad. Sci. USA. V. 85, p. 8934-8938, 1988.
STOCK, A.M.; ROBINSON, V.L.; GOUDREAU, P.N. Two-Component signal transduction.
Annu. Ver. Biochemistry. v. 69, p. 183-215, 2000.
STRING 8.0 - Known and Predicted Protein-Protein Interactions em: Embl. Disponível
em <http://string.embl.de/> Acesso em: 01 dez. 2009.
WÖSTEN, M.M.S.M.; GASTEIGER, E.; BAIROCH, A.; SANCHEZ, J.C.; WILLIAMS, K.L.;
APPEL, R.D.; HOCHSTRASSER, D.F. Protein Identification and Analysis Tools in the
ExPASy Server in: 2-D Proteome Analysis Protocols, 1998.
ZHANG, X.; CHANEY, M.; WIGNESHWERARAJ, S.R.; SCHUMACHER, J.; BORDES, P.;
CANNON, W.; BUCK, M. Mechano chemical ATPases and transcriptional activation.
Mol. Microbiol. V.45, p. 895-903, 2002.
36
ANEXOS
37
ANEXO I - Mapa de restrição
2 Name: Carolina
3 Conformation: linear
4 Overhang: five_prime, three_prime, blunt
5 Minimum Site Length: 5 bases
6 Maximum Number of Cuts: all
7 Included: all commercial, prototypes only
8 Noncutters: AarI, AbsI, AccI, AflII, AflIII, AlfI, AloI, AvrII, BaeI, BamHI, BbvCI, BciVI,
BfiI, BglII, BplI, Bpu10I, BsaAI, BsmI, Bsp1407I, BspHI, CspCI, Eco47III, FalI, FspAI,
HindIII, HpaI, KpnI, MfeI, MluI, NdeI, NheI, NotI, NruI, OliI, PacI, PasI, PmaCI, PmeI,
PpiI, PsiI, PI-PspI, PsrI, SacI, SalI, SanDI, ScaI, PI-SceI, SexAI, SgfI, SgrDI, SmaI,
SnaBI, SpeI, SphI, SrfI, Sse8387I, SspI, SwaI, TatI, VspI, XbaI, XhoI
Name Sequence Site Overhang Frequency Cut Positions

Length
BsaBI GATNNN 6 blunt 1 2328
NATC
EcoRV GATATC 6 blunt 1 2330
PshAI GACNNN 6 blunt 1 2880
NGTC
PvuII CAGCTG 6 blunt 1 1451
StuI AGGCCT 6 blunt 1 2661
AgeI ACCGGT 6 five_prime 1 2536
ApaLI GTGCAC 6 five_prime 1 1927
AscI GGCGCG 8 five_prime 1 288
CC
AsuII TTCGAA 6 five_prime 1 2935
BclI TGATCA 6 five_prime 1 2917
Eco31I GGTCTC 6 five_prime 1 3553
EcoNI CCTNNN 6 five_prime 1 1224
NNAGG
Esp3I CGTCTC 6 five_prime 1 3207
MauBI CGCGCG 8 five_prime 1 1789
CG
PpuMI RGGWCC 7 five_prime 1 3744
Y
Tth111I GACNNN 6 five_prime 1 1357
GTC
XhoII RGATCY 6 five_prime 1 1520
AgsI TTSAA 5 three_prime 1 3187
ApaI GGGCCC 6 three_prime 1 3880
38
BsrDI GCAATG 6 three_prime 1 3126
BstXI CCANNN 6 three_prime 1 1836
NNNTGG
BtsI GCAGTG 6 three_prime 1 3555
Eam11 GACNNN 6 three_prime 1 3405
05I NNGTC
FseI GGCCGG 8 three_prime 1 676
CC
PstI CTGCAG 6 three_prime 1 3012
PvuI CGATCG 6 three_prime 1 3820
TsoI TARCCA 6 three_prime 1 1983
XcmI CCANNN 6 three_prime 1 1833
NNNNNN
TGG
BalI TGGCCA 6 blunt 2 3333, 3632
HindII GTYRAC 6 blunt 2 228, 3887
MslI CAYNNN 6 blunt 2 1834, 1924
NRTG
XmnI GAANNN 6 blunt 2 1540, 3535
NTTC
AclI AACGTT 6 five_prime 2 2923, 4052
ApoI RAATTY 6 five_prime 2 720, 3363
AvaI CYCGRG 6 five_prime 2 1669, 3090
BspMI ACCTGC 6 five_prime 2 81, 3950
ClaI ATCGAT 6 five_prime 2 2167, 2326
EcoRI GAATTC 6 five_prime 2 720, 3363
SapI GCTCTTC 7 five_prime 2 3045, 3642
SgrAI CRCCGG 8 five_prime 2 1626, 3850
YG
SmlI CTYRAG 6 five_prime 2 328, 3954
AatII GACGTC 6 three_prime 2 1021, 1693
AjuI GAANNN 7 three_prime 2 4038, 4070
NNNNTT
GG
ArsI GACNNN 7 three_prime 2 1255, 1287
NNNTTYG
BarI GAAGNN 7 three_prime 2 2949, 2981
NNNNTA
C
BdaI TGANNN 6 three_prime 2 1599, 1633
NNNTCA
BsaXI ACNNNN 6 three_prime 2 7, 37
NCTCC
DraIII CACNNN 6 three_prime 2 2366, 3044
GTG
NspI RCATGY 6 three_prime 2 376, 2681
SfiI GGCCNN 8 three_prime 2 673, 3339
NNNGGC
C
TspDTI ATGAA 5 three_prime 2 877, 3650
DraII RGGNCC 6 five_prime 3 3744, 3876, 3877
Y
NcoI CCATGG 6 five_prime 3 2390, 3117, 3138
PfoI TCCNGG 6 five_prime 3 1123, 3107, 3740
A
AlwNI CAGNNN 6 three_prime 3 237, 1523, 2863
CTG
BseSI GKGCMC 6 three_prime 3 207, 1931, 3880
PflMI CCANNN 6 three_prime 3 132, 237, 3174
NNTGG
39
BtrI CACGTC 6 blunt 4 572, 596, 887, 3044
BsmAI GTCTC 5 five_prime 4 1894, 3207, 3498, 3553
BtgZI GCGATG 6 five_prime 4 1409, 2043, 2108, 2622
PleI GAGTC 5 five_prime 4 335, 1324, 3945, 4013
RsrII CGGWCC 7 five_prime 4 602, 2115, 2875, 2882
G
TfiI GAWTC 5 five_prime 4 117, 3471, 3595, 3950
BsgI GTGCAG 6 three_prime 4 160, 1314, 1359, 3306
DrdI GACNNN 6 three_prime 4 1503, 2991, 3240, 3303
NNNGTC
StyI CCWWG 6 five_prime 5 1175, 2390, 2971, 3117, 3138
G
Eco57I CTGAAG 6 three_prime 5 352, 969, 1527, 1638, 2493
TspGW ACGGA 5 three_prime 5 2100, 3406, 3543, 3761, 3803
I
BseYI CCCAGC 6 five_prime 6 481, 654, 2007, 2206, 2497,
3810
BcgI CGANNN 6 three_prime 6 3246, 3264, 3280, 3298, 4005,
NNNTGC 4039
BseMII CTCAG 5 three_prime 6 2855, 3432, 3515, 3809, 3944,
4063
MmeI TCCRAC 6 three_prime 6 192, 1430, 1868, 2335, 3109,
3950
SduI GDGCHC 6 three_prime 6 62, 207, 1931, 2485, 3004, 3880
TstI CACNNN 6 three_prime 6 7, 39, 2676, 2708, 2771, 2803
NNNTCC
NaeI GCCGGC 6 blunt 7 86, 632, 674, 1628, 1640, 2818,
3340
BstEII GGTNAC 6 five_prime 7 1005, 1608, 2300, 2636, 3312,
C 3942, 3962
BsrI ACTGG 5 three_prime 7 1659, 1980, 2726, 2737, 2812,
3334, 3835
HaeIV GAYNNN 6 three_prime 7 122, 156, 2088, 2106, 2122,
NNRTC 2140, 3424
MboII GAAGA 5 three_prime 7 199, 1434, 2333, 3026, 3059,
3062, 3659
TspRI CASTG 5 three_prime 7 927, 1929, 1987, 2147, 2726,
3334, 3555
BsrBI CCGCTC 6 blunt 8 716, 743, 1064, 1674, 1781,
2055, 3387, 3514
NarI GGCGCC 6 five_prime 8 306, 402, 414, 1192, 1364,
1735, 2338, 2395
BglI GCCNNN 6 three_prime 8 640, 673, 848, 1050, 2715,
NNGGC 3339, 3725, 3828
GsuI CTGGAG 6 three_prime 8 61, 97, 136, 918, 1053, 1707,
1767, 2970
SacII CCGCGG 6 three_prime 8 641, 665, 689, 974, 1198, 1559,
2881, 3227
BseRI GAGGAG 6 three_prime 9 52, 61, 64, 1056, 1731, 1806,
2475, 2604, 3639
Hin4I GAYNNN 6 three_prime 10 123, 155, 2089, 2107, 2121,
NNVTC 2139, 3391, 3423, 3778, 3810
TaqII GACCGA 6 three_prime 10 2548, 2574, 2981, 3007, 3305,
3331, 3551, 3577, 3930, 3956
EcoRII CCWGG 5 five_prime 11 206, 258, 667, 779, 1123, 1336,
1612, 2188, 2833, 3173, 3553
EciI GGCGGA 6 three_prime 11 55, 615, 926, 969, 972, 1068,
1206, 1249, 1954, 2565, 2670
AvaII GGWCC 5 five_prime 12 458, 602, 659, 950, 2115, 2573,
2837, 2875, 2882, 3082, 3242,
40
3744
EcoP1 CAGCAG 6 five_prime 12 67, 70, 109, 307, 328, 352, 513,
5I 762, 1110, 2795, 3754, 4044
SfaNI GCATC 5 five_prime 12 1046, 1403, 1706, 2131, 2135,
2146, 2458, 2599, 2689, 3153,
3580, 3687
BccI CCATC 5 five_prime 13 126, 404, 416, 1503, 1575,
1651, 1830, 2349, 2666, 2892,
3382, 3426, 3493
FokI GGATG 5 five_prime 13 422, 549, 1068, 1710, 1728,
1848, 2373, 2711, 2910, 3131,
3602, 3692, 3749
Eco57 CTGRAG 6 three_prime 13 61, 97, 136, 352, 918, 969,
MI 1053, 1527, 1638, 1707, 1767,
2493, 2970
NmeAII GCCGAG 6 three_prime 13 430, 535, 752, 1687, 1723,
I 1912, 2174, 2222, 2572, 2983,
3311, 3408, 3535
BsePI GCGCGC 6 five_prime 14 288, 496, 519, 895, 1167, 1276,
1298, 1787, 1789, 1877, 2409,
2421, 2960, 3659
CfrI YGGCCR 6 five_prime 14 557, 632, 665, 836, 872, 1204,
1583, 1640, 2239, 2814, 3331,
3340, 3630, 4010
Tsp45I GTSAC 5 five_prime 14 430, 512, 804, 1005, 1608,
2081, 2300, 2636, 3094, 3312,
3478, 3773, 3942, 3962
Hpy99I CGWCG 5 three_prime 16 34, 576, 714, 1460, 1500, 1581,
1692, 1695, 2047, 2586, 2833,
2988, 3045, 3309, 3668, 3698
HaeII RGCGCY 6 three_prime 19 309, 321, 405, 417, 546, 800,
966, 1195, 1367, 1738, 1750,
2264, 2341, 2398, 2823, 2846,
2979, 3383, 3918
HphI GGTGA 5 three_prime 19 798, 921, 1017, 1197, 1245,
1611, 1620, 2312, 2378, 2526,
2648, 2771, 2972, 3125, 3324,
3447, 3936, 3956, 4055
AcyI GRCGYC 6 five_prime 20 29, 306, 402, 414, 429, 815,
1018, 1192, 1364, 1402, 1576,
1690, 1735, 2338, 2395, 2831,
2986, 3113, 3482, 3777
Cfr10I RCCGGY 6 five_prime 20 84, 284, 630, 672, 847, 938,
1024, 1268, 1626, 1638, 2133,
2376, 2536, 2770, 2816, 2839,
3269, 3338, 3462, 3850
FauI CCCGC 5 five_prime 22 12, 16, 20, 91, 616, 709, 808,
975, 1190, 1295, 1378, 1469,
1761, 1774, 2023, 2060, 2497,
2607, 3302, 3850, 3855, 3888
BbvI GCAGC 5 five_prime 29 48, 51, 93, 177, 312, 336, 494,
578, 743, 746, 770, 917, 1028,
1091, 1094, 1307, 1360, 1438,
1512, 1736, 1790, 1868, 2412,
2809, 2812, 2832, 2994, 3022,
3365
HgaI GACGC 5 five_prime 29 18, 241, 418, 453, 489, 792,
804, 1160, 1391, 1466, 1506,
1565, 1716, 2000, 2053, 2417,
2427, 2839, 2994, 3121, 3293,
41
3345, 3490, 3526, 3674, 3704,
3757, 3785, 3872
TseI GCWGC 5 five_prime 29 36, 39, 81, 165, 300, 324, 507,
566, 731, 734, 758, 905, 1041,
1079, 1082, 1295, 1373, 1451,
1500, 1749, 1803, 1881, 2425,
2822, 2825, 2845, 3007, 3010,
3353
TauI GCSGC 5 three_prime 48 109, 198, 306, 336, 356, 359,
366, 496, 566, 643, 646, 667,
688, 691, 830, 833, 845, 874,
911, 973, 976, 1064, 1140,
1197, 1246, 1283, 1561, 1638,
1677, 1776, 1781, 1939, 2035,
2178, 2181, 2206, 2409, 2454,
2712, 2744, 2747, 2915, 2944,
3070, 3073, 3719, 3733, 3825
PspXI VCTCGA 8 five_prime 176 31, 34, 37, 49, 61, 76, 79, 112,
GB 151, 163, 212, 218, 232, 238,
242, 274, 295, 298, 307, 313,
319, 322, 328, 358, 367, 459,
480, 508, 514, 522, 546, 558,
564, 577, 655, 711, 726, 729,
732, 744, 756, 762, 792, 822,
837, 853, 864, 873, 879, 900,
903, 933, 958, 1042, 1065,
1077, 1080, 1086, 1098, 1104,
1110, 1128, 1155, 1209, 1215,
1293, 1308, 1314, 1341, 1374,
1377, 1381, 1446, 1452, 1479,
1494, 1498, 1527, 1542, 1564,
1630, 1644, 1650, 1653, 1662,
1669, 1722, 1750, 1768, 1782,
1798, 1804, 1845, 1882, 1941,
1959, 1964, 1969, 2006, 2019,
2048, 2056, 2070, 2090, 2155,
2196, 2207, 2238, 2250, 2264,
2351, 2381, 2426, 2472, 2484,
2493, 2496, 2513, 2550, 2561,
2613, 2682, 2748, 2754, 2790,
2823, 2826, 2846, 2863, 2869,
2916, 2925, 2931, 2949, 2955,
2979, 3003, 3008, 3050, 3062,
3072, 3078, 3105, 3121, 3132,
3250, 3297, 3350, 3351, 3375,
3382, 3400, 3440, 3500, 3506,
3509, 3521, 3537, 3543, 3570,
3647, 3671, 3701, 3785, 3795,
3809, 3815, 3868, 3918, 3928,
3954, 3989, 4011, 4064, 4071,
42
ANEXO II – Informações sobre possíveis proteínas codificadas pelas ORFs, dadas pelo
programa Blast.
ORF 2:
Methylobacterium extorquens DM4 (2e-78)

two-component DctB-like sigma-54 specific transcriptional regulator, Fis subfamily; with N-
terminal response regulator receiver and ATPase domains
Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Methylobacteriaceae;
Methylobacterium;
mfpeaepaaarvvliddeemvrlameqalqlagiaveafssaeaalpaigrgfsgivvsd
vrlpgrdglelladirrrdpelpvvlvtghgdiamavaamregayhfiekpfvndafvev
vrralekralvmenrrlrdaldrgdapgsaverclvgqspalrrlrddiaslssaaadvl
vlgetgagkeqvaralheggaraakpfvaincgaipesmfesemfgheagaftgagkrri
gkvehasggtlfldevesmplalqvkllrvlqerrverlgsntsvpvdlrvvaatkedln
alseagrfrrdlffrlnvvtltlpplrerredipllferflvqaavkyqrpvievppslr
rslmladwpgnvrelknaaeryvlgflspdlvggpgaapsldalldrverlviedalkas
gqriaeaartlglprktlsdrmrrlglsagd
Roseovarius sp. 217 (9e-111)

Sigma-54 dependent response regulator
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales; Rhodobacteraceae;
Roseovarius;
mmpqpapedtrdeygqnlahasvliiddepgmrnfliktlgprcrhveqarsceegamil
dqahfdlvildnimpgktgldwleeqrrvglfadtilitayadldtaikalragvtdfvl
kpfranqilnavaraldrkylarenyllrhelsaggqaargrllgnstaiqavramlgkl
aaaptsvlftgasgtgkeiaartlhglsnradkpfvavncaaisadriaeelfgvvedgr
arkdglllhadggtllldevaqlpehvqaallrvledkrirpigsereiplnlrflfatn
adlkeavrsgrfradlyhrinivnvqmpslkerqedivelaalfmsefagalgmpvldld
aevllklsrydwpgnvrelrnliersvilgalpeefagsgreggepaletlehveqrhim
avldacggnraeaarrlgvarktidrkcaawgv
Rhodobacter sphaeroides 2.4.1 (6e-72)

sigma-54 dependent transcriptional regulator
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales; Rhodobacteraceae;
Rhodobacter;
mtrgsiafiddepqlcaaaadwleasgfevetftdaalalgrieparcdcvvtdlrmpal
dgqevlarlraadpdlpvillsghgdvpvaveamrmgahdflekpygaehlvevldrave
lrrvrreartsrrsdlasariegrlvgaspaiaalrrmvqdlsdvavdllirgetgsgke
elartfhdfsrrarrpfvaihcaglpeaqfeaelfghergylagtaaarigklehasggt
vffneieamplslqsrllramqergverlgsnalrpvdlrimaatrvdllaevaagrfra
dlyyrlspvtldlpplrersedipllflrfaeeaaarfgrsvpalreadlralrgeswpg
nvgelkaaaeravlgmrqppiaaepdilplpermarieagliaealeecggssalaadrl
glprrtlnekiaryrlras
Azoarcus sp. BH72 (1e-167)

sigma-54 dependent response regulator
Bacteria; Proteobacteria; Betaproteobacteria; Rhodocyclales; Rhodocyclaceae; Azoarcus;
mnpesapasapqqsvlvvddeqgmrnflsralalrgfvvdtaesaeegaeklaatrfdlv
ildialpgkagiewlqdltaagfagevilitafadmqtaidalragaadfilkpfridqi
lnsihrsterarlarenfllrrqvagsgsasdgmigaspaigqlrqilhriaptpstvli
qgesgvgkevvaralhqlspraeqpfvavncaaisaelieselfghvkgaftgarearng
43
lfhyahggtlfldeigelplalqsrllrvleerkvrpvgteqevpvdvrvlaatnrdlra
evaacrfredlfyrlevitltvpplreraedvpalaaafmqqlamqlglppllispevsa
rlmahpwpgnvrelrnfversllfgdfplaslagavappppasaapllleevekrhilav
ldqcggnktraaellgvsrktlerkcaewsv
Nitrosomonas eutropha C91 (5e-74)

two component, sigma54 specific, transcriptional regulator, Fis
Bacteria; Proteobacteria; Betaproteobacteria; Nitrosomonadales; Nitrosomonadaceae;
Nitrosomonas;
mmqskkillvdddpdllellsirltaagyetvpaesaeaainyldisrphlvisdiqmsg
mdgmalfehihrhiptlpviiltafgtipdavaatqrgifgyltkpynpkillsqverai
dlapavdtisskvpaptwrkaiitrsalmedllakvdrvaqgnasvllsgesgvgkelfa
raihqaskrceqpfitincaaipeqlleselfghakgaftgavrehkglfqlaeggslfl
deigdmplllqakllhalqervirpvgtaqsipidvriisathkdlkseiqagnfredly
yrlfvvgltipslaqrgedipllanhflrvfaekhqkdingfspeaisfllasswpgnir
qlmnvieqsivmsavplisselirdamhkdeeqmisfeearkqferdylvkvlkitagnv
tqaarlakrnrtefykllqrhqldftlykslqekv
Aromatoleum aromaticum EbN1 (3e-145)

Bacteria; Proteobacteria; Betaproteobacteria; Rhodocyclales; Rhodocyclaceae; Aromatoleum;
mqrdhaepaleparaaefnwqahsilvvddeedtrsfleralrprcglveiardaeqaar
lmarlhfdllildialpgksglawlhelrehgfsgdailvaaeadldtaiaalrggasdf
ilkpfrvdqilnsvrncfqrahlarenfvlrrelaglggevsnglvgrsdamqqlrevlh
rvaqtsstvlllgesgtgkevaaralhemsprarrpfvpvncaaiaselieselfghirg
aftgatesrnglfhyahggtlfldeigelplalqtrllrvleerrlrpvgserevpvdvr
iiaasnrdlatevaagrfredlyfrlavvdilipplreraedipdllhhfmnlltmqlav
palaipeallarlahyrwpgnvrelrnfverslilgafppeapnlrgdallvgtelslge
vekrhilhmleacggnkseaarrlgvsrktlerkcaewdeslt
Janthinobacterium sp. Marseille (1e-126)

Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Oxalobacteraceae;
Janthinobacterium;
mgykkkisivrglsrieinmsavtpvnnpeepfveafggwqersilivddepgmrsflqr
tlvgrcsrveavdsveaanvllgqqhfdliildnslpgksgvdwlqeirelglhndvvli
tafadletairalragaadfllkpfrvnqilsaigrcfdrahlrrenfilrreldshidl
agveglvgasaalepireaikrlatvpstvlitgesgtgkeiaaramhklsnrshnhfvp
incgavapdiieselfghikgafsgaassreglffyaqggtlfldevaelplamqvkllr
vleekrirpvgaereipvdvrviaatnrnveeavqegrfrqdlyyrlnvvqlhmpplrer
tedipalaeyfvrqlaqqlgvpakkpdsalfaslagyswpgnvrelrnlierwlilgnis
dvtaanntgstttngdvtleavekqhilkilaevggnkteagrrlgisrktlerkcaewg
v
Geobacter bemidjiensis Bem (4e-84)

Bacteria; Proteobacteria; Deltaproteobacteria; Desulfuromonadales; Geobacteraceae;
Geobacter;
mpakilvidddsslrrvleynlqqegydvytaadgdaglqlfaerlpavvitdlkmpgks
gfevlsaikesspatvvivltafgaidtaveamklgafhyltkpfnreelkvtvlkalql
qglseenrllkeelsgraefksivgtsramegvfsvvrkvadteatvlitgesgtgkelv
araihsgssrrgapfiavncaaiprdlleselfghvkgaftgairdkegkfqladggtif
ldevgdlplelqpkllrvlqervvepvggtslqkidlrvvaatnadlerwivegkfredl
yyrlsvipiqlpplrervedvplllryfcakfgaegvsfekealerlqaygwpgnvrele
ntverllimresdrigaaelpekisatsspaegsvlrlppggysleqlerevvlealerc
dwnqtaaarflriprhtliyrmekynivqpgrk
Desulfomicrobium baculatum DSM 4028 (6e-84)

44
Bacteria; Proteobacteria; Deltaproteobacteria; Desulfovibrionales; Desulfomicrobiaceae;
Desulfomicrobium;
mgnhiliiddeknyllvleaileeegytvtalgdpamamtyldesevdvvitdmkmpgmt
gqqvletvrkrhphvpvmimtafgtidraveamksgafdyitkpfsndeillsvgkamkl
shaeqqnrllreslaekfgketiignskpiqdvltlagkvaptrsnvlvtgesgtgkelv
araihitsdrkdmpfisvncmslnpgvleselfghekgsftgamalkrgrfelaqggtlf
ldeigelsqemqvkllrvlqerviervggtetiavdfrlvaatnktlqeeivagrfredl
fyrlnvvnihlpplrerredipilashflrkfslennrqvqgftpgaidylsayewpgnv
rqlenviercvvlsnrdvidvddlppelrdeemqfksavdllplkvnlsetlekieaali
rramvhsgfvqvktaelldvsksllqyklkkykitakt
Dickeya dadantii Ech586 (1e-74)
nitrogen metabolism transcriptional regulator, NtrC, Fis
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae;
Dickeya;
mqrgivwivdddssirwvleraltgagltcatfdngtqalnalttqtpdvllsdirmpgm
dglallqqikqrhpmlpviimtahsdldaavsayqqgafdylpkpfdideavalverais
hyleqqqpvrsqpisgpttdiigeapamqdvfriigrlsrssisvlingesgtgkelvah
alhrhsprakapfialnmaaipkdlieselfghekgaftganqirqgrfeqadggtlfld
eigdmpldvqtrllrvladgqfyrvggyaavkvdvriiaathqnlelrvqegkfredlfh
rlnvirvhlpplrerrediprlaryflqatakelgvepknlhpeteaaltrlpwpgnvrq
lentcrwltvmaagqevliqdlppelfettapdatvhvmpdswatllaqwadralrsghq
nllaeaqpemertllttalrhtqghkqeaarllgwgrntltrklkelgme
Ammonifex degensii KC4 (2e-92)

Bacteria; Firmicutes; Clostridia; Thermoanaerobacterales;
Thermoanaerobacteraceae; Moorella group; Ammonifex;
marvlvvddeesvcqmlkdlletegyevvtalearealekldqeevnaalvdirmpdidg
laffkllkekgytfpvilitaygstdtaieamklgafdyvlkpfnieellltvkkaveve
alaretealrrelageapaeeiigrspamievfkqigkfadtdytvlivgetgtgkelva
galhrnsrrcngpfvrincaaipenlleselfgyekgaftgaisrkigkfelaeggtlfl
deigelplsmqakllrvlqekefervggtktiklnariiaatnrdlvrmvkegtfredly
yrlnvvtihvpplrerkedipllaehflrqavaklgktvkgfspealnllkaydwpgnvr
elrnvceravvlaqgplilpedlpvtlrqpeelglgegeielrlrsgqtlaeilhdvert
vilkalrehnynrtrtaqalgisrrtlhlklkeyglgeegepn
Clostridium difficile QCD-63q42 (4e-72)

two-component response regulator
Bacteria; Firmicutes; Clostridia; Clostridiales; Clostridiaceae;
Clostridium;
mkillvddeleygvvmkkilqkkgylvdialsgeeainiikkdknydlvlsdvmmknmdg
vqlldriksinrdievilvtgygsienavdamkrgalsyfiksnpienlleevekvkask
isvsvqknnleftlesknrdfnniikiakkaackdvnililgesgvgkdilaryihsisp
rkneifvpvnccsfsenlleselfghekgsftgavdsrkgrfelsnkgtlfldeigdipl
nvqvkllrtledksierigsnksikvdfrlicamnkepkveisngniredffyristiti
tipplrkrredlttliefflnkyqiehdkkihsidkevkdfllnynypgnirelkniinr
lvvlseegnlskdnlnlisnnvyiddkisirplreirkefeceyiekvlslcgnnisnta
kkleisrrqltnkiseynik
Enterococcus faecalis Fly1 (7e-23)

sigma-54 dependent DNA-binding response
Bacteria; Firmicutes; Lactobacillales; Enterococcaceae;
Enterococcus;
mlktqivdylrnqtaffepslvseiftasniattfsikrntashylnqlneegilvkint
rpvyffhkeafqqqnyllkrtvyqsfqemideqpvfdrksdffqsvigyrgslaqtieql
kmaalypggglpvlitgesgtgksflaslyyqfclskellddsapfvtvncaqyannpel
ltsqlfghlkgaftgadsdkigafqsaeggvlfldevhrlspegqeklftfldqgiiyrm
getnrpipvtcrlcfatteeisstflttflrripiqikipslaertqaerkqlimrafye
eqqaiqkavtitpqviqllenhhyvgnvgelrnnikiitarsfaanldkrvipitlhdlp
kefldqsirlapdenelpirldgqtnlvslleetelaqrriiqsyerilrlyvshhhhls
45
tanndiskeierlfddllfekkreknhemllfitqnirqlletiessyqirfngslvyal
stylfqrrcidwfpekepttvidelltevqtklatsygyaeqlltlvkrsldielsqmdr
iivtiylhysgsvkeshypkavivahgyatassianvanrllnvpifqsfdmpldvtpkk
isehlihymerqetrnglvilfdmgslkeiyqyfpaeeegpfllmnnvttslalsigeai
kdevsfeelpqkaltvhpneweiilpenktervilttcstgigtavkirdllekslpaea
qlkiipceynqlrnaesikesfpeyeivgiigtnnpssndlpyisleeliagkgittlle
wtkreltkdmlsyvnhelirnfsldrviqsvtildtekiirqvevfliqleerwqqtiqn
drklavyvhvsclierlirnepienyngaeqlkqcqrtvlqelkeafsviekvysvnipe
selfyvydvlfgktefnnaesdf
Microcoleus chthonoplastes PCC 7420 (5e-18)

Sigma-54 interaction domain family
Bacteria; Cyanobacteria; Oscillatoriales; Microcoleus;
mtyldlvtwlrertafsilsdeilqaiaprmealavnaqerlviedtpvdylyilqqgri
egyrtnqlgsiwgvswlpgavihlqelllnqsaqrtivtrsdshlwripaeqfrdlihqy
peisqafspqlaqdlahlssqlkveqerqvtlrpylvnkakrgiigrsryavrlrqqikq
aadtrqsvlifgepglekdntaalihfgsayrrepvikidcskvqasgaelfgreggkpg
lidslntgtlilnnvdelpqdlmpqlatlletgtyqqvrrsleqstqvkqcsariimite
talptinplvgqvikvpplrvrktdisdqmnyyisllcrakginkpkitpealrqlqayd
fpgnlrelknlveralvqsdsgkelteellwpsqskkkqfrfnllnaypqlrrflrsdww
pdrinygftlslfalvvimgfigpqtreenftlnlfwawwwpliligfpfvgrlwcavcp
fmiygevtqklslwlfprqlkpwsrqlaetwggwflfglfaliflweelwdlentaylsa
cllllitagamifsaiferrfwcrylcpiggmnglfaklsmtelraqqgtcsaecstyqc
ykggpqkgegmetngcplyshpaqlqdnrdcvlcmtclkacphrsvevnlrppgielwtt
hiprsyevallllllggvflhrlpelnqqlnlhldlsqfvthawfslavlslpaliplia
yggiqltyrliqtlnltipnpkprslielaygylplvlaanlahhlrlglteagrilpvt
fatfglsgeglpvfvahpaviaflqgvtliagvllsmvltqkiasqpvrslltqhlgiva
lgislwaiivr
Methanosaeta thermophila PT (1e-11)

response regulator receiver protein
Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;
Methanosaetaceae; Methanosaeta;
mkvlvvddapfilralrdsleargfeiheaqsgeealsayrdirpdvvlmdilmpgmngi
svtreimnidpsaniivitaigkpglekecmdagakgfilkpfrmrdlldlidslgkgr
46
47
ORF 3:
Rickettsia bellii RML369-C (2e-8)

hypothetical protein RBE_0952
Bacteria; Proteobacteria; Alphaproteobacteria; Rickettsiales; Rickettsiaceae; Rickettsieae;
mtnvkynlaaaykimaylsmddhtythlsarpkdadfyyiypfglrfeevtehnllkvsl
dgrilegeeyqynktgyfihgsiyqtrpdisaifhyhtpasiavsalkcgllpisqwalh
fynrisyheynslildsekqsdrlvndlkqnyvmllrnhgaitcgktiheamfyayhleq
acktqcslnsankqdliipseeickqtvkdllsfeedlgkcdwdawlrviknnyck
Brucella abortus bv. 1 str. 9-941 (4e-5)

putative aldolase
Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Brucellaceae; Brucella;
mteqeirelivelgaslfargycvgsagnisvrladgylmtptnsclgrlradrlskldk
gwnhiggdrpskevfmhravlgarpqagavvhlhstyataisclsspadtmpitpltpyf
vmrigkhlptipyyrpgdpamereihdaaqnasamllanhgpvvsgnslvdavyaaeele
esarlsimlqglparkltdeqiedllhtfk
Wolbachia sp. wRi (9e-45)

hypothetical protein WRi_002000
Bacteria; Proteobacteria; Alphaproteobacteria; Rickettsiales; Rickettsiaceae; Wolbachieae;
mltksrvkrdlvyayqilsylkfddhtythlsvrsedqksfyiypfgmrfdevderslmk
vsfdgdvvegkeyqynrtgyiihgfvyqarkdiqaifhlhtpsivavsslkdgllpisqw
alhfynkisyhnynslalsdtegkrliadlkenfvmlmrnhgsimcgrsiqeamfytyhl
eqacktqcltlamnkelsipseeicskavkdllsfesnlgerdwhawvrlikskl
Rhizobium leguminosarum bv. trifolii WSM1325 (2e-33)

class II aldolase/adducin family protein
Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Rhizobiaceae;
Rhizobium/Agrobacterium group; Rhizobium;
mahslntapspaggpnqpkldtddiwqarvdlaacfrmaarlgmeegicnhfsavvpgyd
dlflvnpygyafaeltasmllicdfhgnvvsgsgqpeatafyiharihkniprakaafht
hmpyatalsmtegdplifagqtalkfygrtavdqnynglaldaregdriaaaigdadivf
mkhhgvmvcapniaeawddlyyleracevqtlalstgrevlavapeiaeaayrqmregdp
esarlhlesvkraldrsepeykr
Janthinobacterium sp. Marseille (2e-91)

aldolase II superfamily protein
Janthinobacterium;
mttpanppagisaaewqvridlaacyhlcalknwddliythisatvpgeegrflinpfgf
rfdeitasnlvkidlqgniigdqtyrvnvtgfaihgavhaarpdamcvmhlhnengvavg
mqqggllplsqhamrfyrqigyhdyeglalspveqvrlierlgdypamllrnhgtlisgr
tiaeayvlmdtldkacsfqlkaqsgggplnipapeicaktykellgdgspegilewpall
rkldavspsyra
Herminiimonas arsenicoxydans (8e-135)

hypothetical protein HEAR0031
Herminiimonas;
msissthtvttgisdaewqvrldlaacyhlcalknwddliythisatvpgeegrflinpf
glrfdeitasnlvkidlqgniigdqtarvnvtgfaihgavhsarkdamcvmhlhnengva
vgmqqggllplsqhamrfyqqmgyhdyeglalspleqtrlierlgdypamllrnhgtlis
grtiaeayvlmdtldkacsfqlkaqagggplnipppevcaktyrellgdgapegllewpa
llrkldavspayrh
Cupriavidus taiwanensis (5e-65)

aldolase II superfamily protein
Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Burkholderiaceae; Cupriavidus;
48
maqvqlaetsqdrvkervsdaewrmrvdlaaayrlvahfgwddlifthisarvpdapdqf
linpygmmfdeitasslvkvdhhgepvldtpydvnpagfiihsavhearpevgcvmhtht
ahgvavsaqqdgllpisqqamfaltglayhdyegvalredekarlvadlgrckqmilrnh
glltcgrtvadafltmytlesacriqilaqsggtaltrvppaasanmgqqarqatkgkgs
nlawpgllrrldrinpdyrn
Rhodoferax ferrireducens T118 (6e-28)

class II aldolase/adducin-like
Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Comamonadaceae;
Rhodoferax;
mlldrrvarnpmnpsyieeqrdlaavfrgaamfggqagvcshfslrvsddplrfllnpwg
myfsearaselmlvdengvdqsggrdggfaafnihsqihavhpeahcvlhthmpyatait
mldkgrlepasqealrfhddiayddsynglahdpdegeriarkmdgkhvlflahhgvivv
gpsvaqafdhlyyleraaelqvkamscnrplrlvpddiakrtvkqfgrerehwarlhlda
lrrkldhecpeyas
Bordetella pertussis Tohama I (7e-20)

hypothetical protein BP1167
Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Alcaligenaceae; Bordetella;
mppsaptdsarslyqdtavaalrddlalalcaaahhglgegvcnhfsvalpgqagaflln
prglmwsevraedivlvdaagnklagrheveptamfihaaihqvagkacvlhthmpyata
ltltearmldttlsqnamrfhgrvaadrrynglaldaaegeriaramdgadiaflgnhgv
vvcgeridyafddlyyleraccaqvlaessgrplvpldaalaasvagqarserlqstlff
ealrralg
Azoarcus sp. BH72 (5e-37)

hypothetical protein azo1995
Bacteria; Proteobacteria; Betaproteobacteria; Rhodocyclales; Rhodocyclaceae; Azoarcus;
mnaaispavvkpancsdeewalriqlaecyhlvdyfgwtetifnhisarlpggdnyylvn
pfglnytevtpanllkvdlqgnkvepspydanpagfalhsaihgaredihcvihthtnav
savankkagfshdnfygaqlygrvgyhtfegitlfaeekvrmlaslgdkhilvlrnhgva
vgemdiaktffllwtvqraaeiqchagmipgednplpaeigqkcadltqmlirdsgfavk
ffdamvrkmraargalw
Pelobacter propionicus DSM 2379 (4e-5)

class II aldolase/adducin family protein
Bacteria; Proteobacteria; Deltaproteobacteria; Desulfuromonadales; Pelobacteraceae;
Pelobacter;
mllqnereeivrfgrkmvsarltsgtggnlsvidrdaglvaispsgmeydetepadvpvl
dldgvavtgerkpssefgfhlalyharpdigavvhthsvyattmaclgweipavhylvaf
sghkvplapyatfgsreladsvagsigehnalllanhglvavgpnlatafavaeeielva
qiyyqakcigepvmvpqdemervigkfavygqrgttgsgaggvnkfdaagqnreevh
Anaeromyxobacter dehalogenans 2CP-C (0,005)

class II aldolase/adducin-like
Bacteria; Proteobacteria; Deltaproteobacteria; Myxococcales; Cystobacterineae;
Myxococcaceae; Anaeromyxobacter;
maraprpravlpraaprartapreraladavvetchrlaaldligagegnvsvrlgpdaf
lvtasgvnkgllrpghvlridgagavtrgagrpstelrmhlaayaarpdveaivhahpit
avaltvagvpppndlvpeaavtlgeialapfatpgtgevpaslapylarhdvlllerhga
lalgrtlsealdrmetlervarialaarlagrctplpadavdrvllaagkparkr
Alteromonas macleodii 'Deep ecotype' (3e-62)

class II aldolase/adducin-like protein
Bacteria; Proteobacteria; Gammaproteobacteria; Alteromonadales; Alteromonadaceae;
Alteromonas;
mtdsvkskvsseewqtrvdlaacyravamygwddlifthisarvpgpdhhflinpyglmf
devtasslvkvdlhgnkvmeseydinpagftihsavhearddakcvlhlhtaegvavsil
eeglqpysqqslfplaslsyhayegvalnpeekvrlvrdlgdtqfmilrnhglltcadni
pdaflfmfimqraceiqlkaqatgkplipihsaildgirmqadqvtrqaggslawpgikr
49
rverrfpgydk
Streptococcus pneumoniae R6 (4e-7)

L-fuculose phosphate aldolase
Bacteria; Firmicutes; Lactobacillales; Streptococcaceae;
Streptococcus;
mrrtrmsdvkqelikygkklvetdltkgtggnlsvfdrekqlmaitpsgidffeikesdi
vvmdingnvvegerlpssewymhliqyqtrddidaiihahttyatvlaclreplpashym
iavagkdvrvaeyatygtkelavnaakamegrravllanhgilagaqnllnafniveeve
ycakiyclaknfgepvvlpdeemelmaekfktygqrk
Picrophilus torridus DSM 9790 (4e-7)

L-fuculose phosphate aldolase
Archaea; Euryarchaeota; Thermoplasmata; Thermoplasmatales;
Picrophilaceae; Picrophilus;
mydhekeriieasrdiisssltvgswgnismrahdgnivitpsgknykklskedlivtdi
ngniisgkykpsserlmhyeiykkrkdvnaivhthavyssvlsvidedlpvitedvamll
ghvrvakyaitgsmdlalnvasvlndanaaimanhgavavgvdmeraytaaqvlekscki
fvlsriigrvnvvpeedakqlskisesylsqwknwd
50
ANEXO III – Outras informações obtidas pelo programa String.
ORF 2:
51
ORF 3:
52
ANEXO IV – Informações dadas pelo programa ExPASy – ProtParam
ORF 2:
Number of amino acids: 476

Molecular weight: 52220.2
Theoretical pI: 5.95
Amino acid composition:
Ala (A) 56 11.8%
Arg (R) 49 10.3%
Asn (N) 9 1.9%
Asp (D) 32 6.7%
Cys (C) 9 1.9%
Gln (Q) 8 1.7%
Glu (E) 36 7.6%
Gly (G) 32 6.7%
His (H) 7 1.5%
Ile (I) 17 3.6%
Leu (L) 60 12.6%
Lys (K) 14 2.9%
Met (M) 9 1.9%
Phe (F) 15 3.2%
Pro (P) 25 5.3%
Ser (S) 23 4.8%
Thr (T) 21 4.4%
Trp (W) 4 0.8%
Tyr (Y) 5 1.1%
Val (V) 45 9.5%
Pyl (O) 0 0.0%
Sec (U) 0 0.0%
(B) 0 0.0%
(Z) 0 0.0%
(X) 0 0.0%
Total number of negatively charged residues (Asp + Glu): 68

Total number of positively charged residues (Arg + Lys): 63
Atomic composition:
Carbon C 2297
Hydrogen H 3748
Nitrogen N 672
Oxygen O 679
Sulfur S 18
Formula: C2297H3748N672O679S18
Total number of atoms: 7414
53
Extinction coefficients:
Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.
Ext. coefficient 29950

Abs 0.1% (=1 g/l) 0.574, assuming ALL Cys residues appear as half cystines

Abs 0.1% (=1 g/l) 0.564, assuming NO Cys residues appear as half cystines
Estimated half-life:
The N-terminal of the sequence considered is M (Met).
The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).

>20 hours (yeast, in vivo).
>10 hours (Escherichia coli, in vivo).
Instability index:
The instability index (II) is computed to be 39.72
This classifies the protein as stable.
Aliphatic index: 102.27
Grand average of hydropathicity (GRAVY): -0.032
54
ORF 3:
Number of amino acids: 275

Molecular weight: 30388.6
Theoretical pI: 6.22
Amino acid composition:

Ala (A) 33 12.0%
Arg (R) 25 9.1%
Asn (N) 7 2.5%
Asp (D) 19 6.9%
Cys (C) 5 1.8%
Gln (Q) 5 1.8%
Glu (E) 16 5.8%
Gly (G) 19 6.9%
His (H) 13 4.7%
Ile (I) 11 4.0%
Leu (L) 31 11.3%
Lys (K) 5 1.8%
Met (M) 7 2.5%
Phe (F) 7 2.5%
Pro (P) 16 5.8%
Ser (S) 12 4.4%
Thr (T) 17 6.2%
Trp (W) 3 1.1%
Tyr (Y) 7 2.5%
Val (V) 17 6.2%
Pyl (O) 0 0.0%
Sec (U) 0 0.0%
(B) 0 0.0%
(Z) 0 0.0%
(X) 0 0.0%
Total number of negatively charged residues (Asp + Glu): 35

Total number of positively charged residues (Arg + Lys): 30
Atomic composition:
Carbon C 1334
Hydrogen H 2114
Nitrogen N 396
Oxygen O 394
Sulfur S 12
Formula: C1334H2114N396O394S12
Total number of atoms: 4250
55
Extinction coefficients:
Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.

Abs 0.1% (=1 g/l) 0.894, assuming ALL Cys residues appear as half cystines

Abs 0.1% (=1 g/l) 0.886, assuming NO Cys residues appear as half cystines
Estimated half-life:
The N-terminal of the sequence considered is M (Met).
The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).

>20 hours (yeast, in vivo).
>10 hours (Escherichia coli, in vivo).
Instability index:
The instability index (II) is computed to be 36.39
This classifies the protein as stable.
Aliphatic index: 89.49
Grand average of hydropathicity (GRAVY): -0.222
56

Análise, Reconhecimento e Clonagem Final de ORF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise, Reconhecimento e Clonagem Final de ORF

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO PARANÁ

Análise, reconhecimento e clonagem virtual de ORF

Trabalho apresentado à disciplina BQ020 –

A biologia molecular esta interessada em investigar e compreender o funcionamento

2 ANÁLISE DA SEQÜÊNCIA E CONSTRUÇÃO DE PLASMÍDIO VIRTUAL

2.1 A seqüência de DNA 5’ - 3’ a ser estudada

Programa que identifica as ORFs (open reading frame) da seqüência fornecida, ou

Fig.1 – Resultado obtido pelo programa FramePlot, para análise de ORFs

 Window Size: 40 códons

2.3.1 ORF 1 (rosa)

Nesta seqüência a porcentagem de G+C na terceira base é de 91,8%.

Fig.2 – Resultado obtido para primeira ORF analisada em BLAST.

Nesta seqüência a porcentagem de G+C na terceira base é de 94,5%.

Fig.3 – Resultado obtido para a segunda ORF analisada em BLAST.

Esse trecho da seqüência provavelmente codifica uma proteína responsável por

2.3.3 ORF3 (azul)

Nesta seqüência a porcentagem de G+C na terceira base é de 88,0%.

Fig. 4 – Resultado obtido para terceira ORF analisada em BLAST.

Esta região selecionada provavelmente codifica uma superfamília da proteína

2.3.4 ORF4 (vermelha)

Nesta seqüência a porcentagem de G+C na terceira base é de 80,2%.

Fig. 5 – Resultado obtido para quarta ORF analisada em BLAST.

2.3.5 ORF5 (roxo)

Nesta seqüência a porcentagem de G+C na terceira base é de 84,8%.

Fig. 6 – Resultado obtido para quinta ORF analisada em BLAST.

A série de programas Clustal é amplamente usada em biologia molecular para o

A interpretação das árvores nos mostra que nem sempre microrganismos

String é um banco de dados e um recurso online (http://string.embl.de/) dedicado à

Em anexo podem ser visualizados os genes vizinhos das ORF’s 2 e 3 para os

2.6 Análise de Domínios

A unidade fundamental da estrutura de proteínas, o domínio, é definida como uma

2.7 Mapa de Restrição

Um mapa de restrição consiste na identificação dos sítios de clivagem das diversas

 Enzima: ApaLI, que cliva seqüência GTGCAC, primer 5 na posição 1927

Fig. 12 – Exemplo de mapa de restrição.

2.8 Região Promotora

O primeiro passo para que a célula tenha a informação necessária de suas

2.9 Região Terminadora

A região de terminação da tradução é definida de acordo com a composição das

O sítio de ligador de ribossomo, RBS (Ribossomal Binding Site) ou seqüência de

2.11 Seqüência codificante final e os motivos estruturais identificados

VERDE: Seqüência da proteína regulatória dependente de sigma 54

2.12 Estratégia de clonagem para expressar a proteína

2.12.1 Vetor escolhido para posterior clonagem e Microganismo

2.12.2 PCR com primers mutagênicos

O processo para realização da PCR já foi descrito previamente, no entanto não se

A enzima escolhida para fazer a digestão do vetor e dos fragmentos de DNA

Name Sequence Site Length Overhang Frequency Cut Positions

Fig. 14 – Local de clivagem da enzima BamH1

Primer inicial complementar a fita 5’-3’ : ACCGCGCCTAGGACCTCCGC

2.12.5 Montagem do Vetor

Após a amplificação por PCR usando primers mutagênicos, os fragmentos devem

Transformação é o processo de incorporação de moléculas de DNA, pela bactéria,

2.12.7 Superexpressão e purificação

A E. coli da linhagem BL21(DE3) mais o vetor pET28a permitem um elevado

3.1 Microrganismo e importância fisiológica do produto do gene

O gênero Azoarcus pode ser dividido em dois grupos de organismos de fixação de

Fig. 15 – Esquema de ativação de transcrição por proteínas reguladoras de transcrição dependentes

Estes ativadores de transcrição dependente de sigma54 são também chamados de

3.3 Características gerais da proteína codificada

ProtParam, da ExPASy, é uma ferramenta que permite verificar parâmetros físicos e

Coeficientes de extinção (em M-1 cm-1, a 280 nm, em água):