Escolar Documentos
Profissional Documentos
Cultura Documentos
SETOR DE TECNOLOGIA
CURSO DE ENGENHARIA DE BIOPROCESSOS E BIOTECNOLOGIA
CURITIBA
2009
Universidade Federal do Paraná
1
Setor de Ciências Biológicas
Departamento de Bioquímica
CURITIBA
2009
SUMARIO
2
1 INTRODUÇÃO.................................................................................................................................3
2 ANÁLISE DA SEQÜÊNCIA E CONSTRUÇÃO DE PLASMÍDIO VIRTUAL................................................5
2.1 A seqüência de DNA 5’ - 3’ a ser estudada.............................................................................5
2.2 Análise da seqüência por Frame Plot......................................................................................7
2.3 BLAST......................................................................................................................................8
2.3.1 ORF 1 (rosa)....................................................................................................................8
2.3.2 ORF2 (verde)...................................................................................................................9
2.3.3 ORF3 (azul)....................................................................................................................10
2.3.4 ORF4 (vermelha)...........................................................................................................11
2.3.5 ORF5 (roxo)...................................................................................................................11
2.4 Clustal...................................................................................................................................12
2.5 String....................................................................................................................................15
2.6 Análise de Domínios.............................................................................................................18
2.7 Mapa de Restrição................................................................................................................20
2.8 Região Promotora.................................................................................................................21
2.9 Região Terminadora.............................................................................................................22
2.10 Identificação do sitio de ligação do ribossomo.....................................................................23
2.11 Seqüência codificante final e os motivos estruturais identificados......................................23
2.12 Estratégia de clonagem para expressar a proteína..............................................................25
2.12.1 Vetor escolhido para posterior clonagem e Microganismo..........................................27
2.12.2 PCR com primers mutagênicos..........................................................................................28
2.12.3 Escolha da Enzima de Restrição....................................................................................29
2.12.4 Desenho do primer.......................................................................................................30
2.12.5 Montagem do Vetor.....................................................................................................30
2.12.6 Transformação..............................................................................................................30
2.12.7 Superexpressão e purificação.......................................................................................31
3 FUNÇÃO DO GENE OU OPERON...................................................................................................32
3.1 Microrganismo e importância fisiológica do produto do gene............................................32
3.2 Outros genes relevantes que podem fazer parte do operon...............................................34
3.3 Características gerais da proteína codificada........................................................................34
4 REFERÊNCIAS BIBLIOGRÁFICAS.....................................................................................................36
ANEXOS................................................................................................................................................38
3
1 INTRODUÇÃO
4
Essa análise computacional permite uma rápida identificação/comparação da
seqüência obtida com outras seqüências conhecidas e depositadas num banco de dados de
DNA. Com esse advento da bioinformática essa análise se torna muito mais rápida e
simples desde que a sua seqüência possua uma homóloga já identificada. Essa
comparação fornece uma porcentagem de semelhança entre diversas seqüências, então se
corre o risco de aceitar algum resultado da analise que na verdade apresente alguma
diferença talvez relevante em relação a sua seqüência. Além disso, a utilização destes
métodos computacionais requer certo conhecimento e habilidade em trabalhar com os
programas envolvidos.
Uma outra limitação importante dos programas de busca de gene é a falha na
identificação de promotores e a natureza éxon-íntron dos genes eucarióticos que demandam
o desenvolvimento de novas ferramentas mais eficientes de bioinformática para se explorar
mais eficientemente a totalidade do DNA.
cgacccgcccgcccgcaccatgcctccggcgtcgagcagcagcagatagtccagcccgtgctcctccgcctcctcctcca
gcagccggcgcaggtcggcgggcgtgccgcgctccagaatcagggccaaccgatgggaggtcgccaccccctccagc
ccgttgcgcagcgacatctgcacccggtcgaagaactgccgcgccgtgcccaggtcggagctgaccttgttgaccagaag
ctggtcgtagccctgcgtcccccaggcccagacgatcatcagcagaaccggcgcgccgaccagcagcggcgccagca
ccagcgccagcagcttgagccgcaccgactccgcgtaggccgccgccagccgcttcagcatgttgggccgggacgggtt
ggggcgaggcgccgaggatggcgccggagatggaggcgtcacaccccccattccacgcatttccggtccagcgtcttgc
gcgacacgcccagcagatcggcggcgcgcgtcttgctgccgtcacagcgcgccagcacggtcaggatgtggcgcttctcc
acctcggccagcggcagcacgtcgctgtcgccgtccatgcggacgtggcggaccggacagggggcgcagggcgggttg
ccggccaccgcggcggcgcacaggctggggtccgcggccaggccggcctccaccgccgcggcgttggcggtgtccag
atcgtcgagcgggaattcgccgagcagcagcgaccgctccacgaagttgcgcagctcgcgcacgttgccgggccagga
atggcacatcagcgcccgcgtcacctccggcgtcagggtcagcggcggcacggccagccgcaccggcaggaagcgca
tgaacagcgcggccagctccggcacgtccaccgcgcgctggcgcagcggcggaatggtcagtgtcatcacctccagccg
gtagaacaggtccgggcggaagcgccccgccgcggcctccgccttcaggtcgcggttggtggcggtgaccacgcggac
gtccaccggcacctcctgttcgctgccgaccgggcggatgcgccgctcctccagaacgcgcagcagcttggattgcagggt
cagcgacagctcgccgatctcgtccaggaacagcgtgccgccgtgggcgtagtagaacagccccttgcgcgcgtccttgg
ccccggtgaaggcgccgcgggcgtggccgaacagctccgcctcgatcaggtcggcggagatcgccgcgcaattcaccg
ccacgaagggccggtcggcgcgcggcgacaggtcgtgcagcgcgcgggcgaccagctccttgcccacgccggactcg
5
ccctggatcagcacggtggacggggtcggcgccacccgctgcaccagcgagcgcaaccgcatcatggcgtccgaccgc
ccgacaatctcatcgcgcccgttgtccttcttcgacagctgccgacgcagaacatagttctcgcgggtcagccgggtgcgctc
gacgcagcggtcgatggagttcaggatctgctcgacccggaagggcttcagcacgaaatccgcggcaccggagcgcag
ggcgtcgatggccgtgtccatgtcggcgaaggcggtgaccaggatcacctcgccggcgtagccgccggccatcagctcct
tcagccagtccagccccgagcggcccggcagggcgacgtcgaggatgatgacctcggcgtggatgcgctccagcgtcc
gggcgccctcctcggcgctgcccgccacctcgacccgccagccgcgccgctccagcgcgcgcgacagaaagctgcaa
atcccctcctcatcgtccaccacgaggatggagggcttcgcctgatcctccattcggcccccttccggcgcgctgcggtcgg
acggggtggagacaggcgcggtcatggtcatcactgtgcactcggcggcggaaagccccacagtctaagggagcatag
ccaagccgggccagtgatttccgaaatccggaatagtcccagcgtcccgcttggacaaccgcgccgcgccatgcgacgct
ctcccgctcatcgcacagaccgggagccgaccgtgacggacaccagcggatcatttgtccatgccggaccgcgcatcgc
cgacaccggcatcagtgatgccgagtggcaagcccggatcgatctcgccgccgcctaccgcctggtcgccgagcgcggc
tgggacgacctgatctacacccacatctcgctggccgtgccgggggagccggggcgcttcctcatcaaccccttcggcctg
accttcggcgaggtgaccgcctccaacctcgtgaagatcgatatccacggcgccatcatcggcgacagcccccacccggt
gaataccaccggcttcgtcatccatggcgccgtccatgcggcgcgcgaggacgcgcgctgcgtcatgcaccttcacaacg
aggcggcggtggcggtgtcgatgctgaaggacgggctcctcccgctgtcccagcacgccctgcgcttttaccgcgacctcg
cctatcaccggtacgaggggctggccctgaccgacagcgagaaggtccgcctcgtcgccaatctcggcacccgccgggc
gatgctcctccacaaccacggcagtctggtgaccgggcgcacggtggcggaggccttctgcctgatggacatgctggaca
aggcgtgccggatgcaactcgccgcgcaggccactggcgcggaactggtgtcgccgccgccggagctgtgcgacaaga
cctaccggcaactcaccgccgatccggagccggaaggcgaactggaatggccggcgctgctgcgacgcctggaccgg
cgctgcccggactacaggaactgagctttccggaccgcggtccgcaacagaggggatggaacgactatgccgctgatca
acgttcagcttttcgaaggccgcacgctggagcagaagcgcgcctacgccaaggcgctcaccgacgcctcggtcgcggt
gctcggctgcagcccggaggcggtcgatgtcatcttccacgacgtgaagaagagcgattgggccagcggcggcaagctg
tggtccgaccccgagtgacattcgcttcccggacgcccatgggaagcattgctcaccccatgggcatccggacaaaaaac
aggcagaccaatccctggcctgcgttcaaaccgcacccaccgtcttgcccgtgagacggtaaaccgcggtggcgaccgc
ccggtcctcgctgtcgccgacctccatgcgccggtcgatgtagttgccgagaaactcgaccagcgcgtcgcgggtgaccg
actgcacccactggccatgccggccataggcttgcagcgtccagaattccgaggccatcagcgccgagcggacggatttg
gacgagccgtcccaatgcgaccacagaaagtcgatggcactctgagcgaccgtaatcaccaaaccggcattgattccgc
gtgacgccatcgtagtctccctctcagcttgccgagcggacgctcgtgaacggaactcgttcagcaaaagcagtgccaggg
agaccgaaacaaaaagccgtacctcgttcggatgcgattcgccggaaatccagaccagacacgggaggagtggccatg
aacgcgcaagaagagcaacgggcgcgcgacgcgctgaaatgcatcgaccgcgatctcgacgcgctcgacatccagat
cgccgccttgcaggcgcggcaacgatccgggacctccctcgaccaatacatccgcgtccgtgacgccctgctgacggag
gctcagacgatcctgacccagctcgatcgccgccccggcaaccagtcccctcccccgccggtggcgggggagggctag
aaaggggccccgcgtcaacacttcggcacaatggttctgttaggcgctctgaaacgctctcaggggagtcggtcaccaga
atctcaagcaggtcaccgttggaatgggcctgatagacgttagcaacgtccatttttccggccagcagactcatcggatcgg
ggtaagtcaggtgaaagaacgtttggcctgcttctaggctgagcgcaaggcggtc
6
2.2 Análise da seqüência por Frame Plot
As ORFs que correspondem a uma maior porcentagem de G+C (ou seja, acima da
linha pontilhada na parte de baixo do gráfico) foram selecionadas (quadros pretos) e a
analise da potencialidade deste trecho de sequencia codificar algo importante foi feita
utilizando o programa Blastp.
Os parâmetros utilizados no programa foram:
7
2.3 BLAST
Blast (Basic Local Alignment Search Tool) é um algoritmo usado para comparar
seqüências de informações biológicas tais como segmentos de DNA, seqüências de
aminoácidos, entre outros, com seqüências contidas em uma biblioteca online de dados.
MGGVTPPSPAPSSAPRPNPSRPNMLKRLAAAYAESVRLKLLALVLAPLLV
GAPVLLMIVWAWGTQGYDQLLVNKVSSDLGTARQFFDRVQMSLRNGLEGV
ATSHRLALILERGTPADLRRLLEEEAEEHGLDYLLLLDAGGMVRAG
Para esta ORF não foi detectado pelo programa nenhum domínio conservado
provável e com um valor E de 7e-21 esta ORF codifica um provável sensor de histidina
quinase do microrganismo Azoarcus SP BH72 que é uma betapreotobacteria.
8
2.3.2 ORF2 (verde)
MEDQAKPSILVVDDEEGICSFLSRALERRGWRVEVAGSAEEGARTLERIH
AEVIILDVALPGRSGLDWLKELMAGGYAGEVILVTAFADMDTAIDALRSG
AADFVLKPFRVEQILNSIDRCVERTRLTRENYVLRRQLSKKDNGRDEIVG
RSDAMMRLRSLVQRVAPTPSTVLIQGESGVGKELVARALHDLSPRADRPF
VAVNCAAISADLIEAELFGHARGAFTGAKDARKGLFYYAHGGTLFLDEIG
ELSLTLQSKLLRVLEERRIRPVGSEQEVPVDVRVVTATNRDLKAEAAAGR
FRPDLFYRLEVMTLTIPPLRQRAVDVPELAALFMRFLPVRLAVPPLTLTP
EVTRALMCHSWPGNVRELRNFVERSLLLGEFPLDDLDTANAAAVEAGLAA
DPSLCAAAVAGNPPCAPCPVRHVRMDGDSDVLPLAEVEKRHILTVLARCD
GSKTRAADLLGVSRKTLDRKCVEWGV
9
exemplo no microrganismo no microrganismo Azoarcus SP BH72, que é uma
betapreotobacteria com um valor de E de 1e-166.
MRRSPAHRTDREPTVTDTSGSFVHAGPRIADTGISDAEWQARIDLAAAYR
LVAERGWDDLIYTHISLAVPGEPGRFLINPFGLTFGEVTASNLVKIDIHG
AIIGDSPHPVNTTGFVIHGAVHAAREDARCVMHLHNEAAVAVSMLKDGLL
PLSQHALRFYRDLAYHRYEGLALTDSEKVRLVANLGTRRAMLLHNHGSLV
TGRTVAEAFCLMDMLDKACRMQLAAQATGAELVSPPPELCDKTYRQLTAD
PEPEGELEWPALLRRLDRRCPDYRN
10
Janthinobacterium sp. Marseille que também é uma Betaproteobacteria com valor de E igual
a 2e-91.
MASRGINAGLVITVAQSAIDFLWSHWDGSSKSVRSALMASEFWTLQAYGR
HGQWVQSVTRDALVEFLGNYIDRRMEVGDSEDRAVATAVYRLTGKTVGAV
Para esta ORF o programa não detectou nenhum domínio conservado e o número
de seqüência que produziram um alinhamento com a seqüência da ORF 4 foi muito baixo
(apenas 4) e o primeiro resultado obtido sugere ser uma proteína hipotética de Vitis vinefera
(eucarioto), com um valor de E de 1.2, muito alto em relação aos outros alinhamento, por
isso esta ORF não será considerada nas análises posteriores.
MNAQEEQRARDALKCIDRDLDALDIQIAALQARQRSGTSLDQYIRVRDAL
LTEAQTILTQLDRRPGNQSPPPPVAGEG
11
Para esta ORF o programa não detectou nenhum domínio conservado e o número
de seqüência produzido pelo alinhamento com a seqüência da ORF 5 foi muito baixo
(apenas 4) e o primeiro resultado obtido sugere ser algum produto gênico relacionado com
transporte de soluto pelo symport de sódio (“transporter, solute:sodium symporter (SSS)
family”) do microrganismo Burkholderia multivorans CGD1, que é uma proteobacteria, e cujo
valor de E foi 1.3. Já o segundo resultado sugere que se trata de proteína envolvida com a
estruturta do cromossomo (“structural maintenance of chromosomes protein 5”) de Xenopus
laevis,um eucarionte, cujo valor de E é 1.4. Devido ao baixo número de alinhamentos
encontrados pelo programa, pelas diferenças dos resultados e pelos altos valores de E
correspondente, esta ORF não será considerada nas análises posteriores.
2.4 Clustal
12
microrganismo com a seqüência de aminoácidos mais próxima da seqüência estudada
pertencia. Sendo assim, procurando no banco de dados do NCBI pela taxonomia de vários
microrganismos, encontramos uma função que permitia realizar a comparação das nossas
ORF’s com a seqüência de diversos microrganismos, que tivessem seus genomas
previamente interpretados, de acordo com a nossa escolha. Essa função encontra-se na
página: http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi?
organism=375286&database=375286
A escolha dos microrganismos foi feita de forma aleatória, levando em consideração
sua classe e filo, desse modo escolhemos microrganismos que pertenciam desde do filo das
proteobactérias – com as classes variando entre alfa, beta, delta e gama – até dos filos
firmicutes e cianobactérias, alteramos também o domínio escolhendo microrganismo
Arquea. Isso feito, recolhemos as seqüências de aminoácidos correlatas e jogamos no
Clustal que a partir do alinhamento desenhou as árvores filogenéticas desses
microrganismo, as quais seguem a seguir:
ORF 2:
Fig. 7 – Árvore filogenética obtida pelo programa Clustal, para análise da ORF 2.
13
ORF 3:
Fig. 8 – Árvore filogenética obtida pelo programa Clustal, para análise da ORF 3.
14
2.5 String
ORF 2:
15
Fig. 9 – Resultado obtido pelo programa String, para análise de vizinhança da ORF 2.
Amarelo: sinal de transcrição histidina quinase
Azul: proteínas reguladoras, em geral sigma 54
Verde: regulador de transcrição sigma 54
Marrom: proteína de regulação da fixação de nitrogênio
Rosa: regulador de transcrição
Dessa análise pode-se inferir que talvez a proteína reguladora sigma 54 esteja relacionada
com a fixação de nitrogênio, uma vez que possuem genes próximos a ela com essa função
e que são conservados em diferentes microrganismos. Contudo, segundo a literatura, a
proteína reguladora sigma 54 pode regular a transcrição de genes bem distantes da região
onde ela é codificada, de modo que não podemos ter certeza da função dessa proteína.
ORF 3:
16
Fig. 10 – Resultado obtido pelo programa String, para análise de vizinhança da ORF 3.
Roxo: Aldolase classe II
17
funções protéicas. Assim, domínios conservados são definidos como unidades recorrentes
na evolução molecular, extensões que são possíveis de serem determinadas por
seqüenciamento e análise estrutural. Por conterem motivos, permitem a detecção em
seqüências polipeptídicas.
Utilizando a ferramenta NCBI CD-Search Tool , foram analisados os possíveis domínios
conservados da proteína codificada pelo gene apresentado. Foi utilizada a forma concisa,
para obter os resultados mais específicos.
Fig.11 – Resultado obtido pelo programa CD-Search Tool para análise de domínio da ORF 2.
Selecionando o hit que apresentou o menor valor de erro (2e-130), verifica-se que
corresponde a um multi-domínio que possui 3 domínios simples. O domínio apresentado
indica ser um regulador de respostas contendo domínio sensor do regulador tipo REC da
família Che-Y, ATPase do tipo AAA+ e um domínio de ligação de DNA do tipo HTH.
18
Reguladores de respostas do tipo Che-Y geralmente estão envolvidos em sistemas de
dois componentes. Os sistemas de dois componentes são comuns e regulam a expressão
de genes necessários para diversas funções celulares, como metabolismo de nitrogênio e
fosfato, colonização e infecção de hospedeiro, transportadores de íons, resistência a
antibióticos, estresse oxidativo e adaptação a alterações de pH (STOCK, ROBINSON &
GOUDREAU, 2000) .
O domínio de ligação ao DNA é um motivo do tipo hélice-volta-hélice (HTH), que
permite a ligação do regulador de transcrição a seqüências ativadoras específicas do
promotor tipo σ54 (MORETT & SEGOVIA, 1993) e encontra-se na porção N-terminal da
proteína.
A porção central possui um domínio AAA, domínio de ATPases do tipo AAA+, capaz de
hidrolisar nucleotídeos, sendo portanto associadas a várias atividades celulares e funcionam
como chaperonas moleculares. É encontrado neste domínio o motivo GAFTGA,
absolutamente conservado nas enhancer-binding proteins (EBPs) bacterianos. Acredita-se
que esta seqüência de aminoácidos seja responsável pela interação com o fator σ 54 e é
essencial para a hidrólise de ATP e formação de complexo aberto (ZHANG et al, 2002).
19
Na descrição da estratégia de clonagem serão descritas quais enzimas deverão ser
utilizadas entre as encontradas e descritas no mapa de restrição.
Ver anexo 5.1 para lista completa das enzimas de restrição do mapa de restrição.
Exemplo de mapa de restrição (gráficamente) para :
20
A iniciação da transcrição é um passo extremamente importante na expressão de um
gene, porque este é o ponto principal pelo qual a célula regula quais as proteínas que
devem ser produzidas, e em qual freqüência. A RNA polimerase bacteriana é um complexo
composto por várias subunidades e pode ser isolada em duas formas: a holoenzima, que
possui as subunidades α2ββ’σ, capaz de reconhecer promotores e iniciar a transcrição; e a
apoenzima, que possui todas as subunidade, exceto a σ, sendo então incapaz de inciaiar a
síntese de RNA a partir de moltes nativos (Kumar, 1981). Uma subunidade destacável,
denominada fator sigma (σ), é responsável pelo reconhecimento e ligação a seqüência
específicas do DNA, denominadas promotores (Wösten, 1998). As moléculas de RNA
polimerase aderem apenas fracamente ao DNA bacteriano quando colidem com ele, e uma
molécula de polimerase desliza rapidamente ao longo da molécula de DNA até dissociar-se
novamente. Entretanto, quando a polimerase desliza de uma região dupla-hélice de DNA
denominada de promotor, uma seqüência especial de nucleotídeos indicando o ponto inicial
para a síntese de RNA se liga firmemente à mesma. A polimerase, utilizando seu fator
sigma, reconhece a seqüência de DNA por estabelecimento de contatos específicos com
porções de bases que estão expostas na face externa da hélice.
Os fatores σ de bactérias podem ser divididos em duas famílias: família σ 70 e família
σ54. Os fatores pertencentes à família σ 70 produzem uma holoenzima capaz de iniciar a
transcrição independente da presença de proteínas ativadoras (McClure, 1985). Os
pertencentes à família σ54 produzem uma holoenzima que é incapaz de formar o complexo
aberto na ausência de proteínas ativadoras (Sasse-Dwight & Gralla, 1998).
De acordo com o que foi verificado, é provável que o promotor seja dependente do
fator σ70. Tais promotores possuem características que os diferenciam dos outros
promotores de bactérias. A holoenzima RNA-polimerase/σ 54 reconhece uma seqüência
promotora distinta da reconhecida pela RNA-polimerase/σ70. Esta sequência é caracterizada
pelos dinucleotídeos “GG” e “GC” localizados nas posições -24 e -12 em relação ao início de
transcrição (Kustu et al, 1989). Assim, o provável promotor da seqüência analisada para o
gene de interesse encontra-se na posição 3540, na seqüência consenso.
21
2.10 Identificação do sitio de ligação do ribossomo
0001- CGACCCGCCCGCCCGCACCATGCCTCCGGCGTCGAGCAGCAGCAGATAGT
0051- CCAGCCCGTGCTCCTCCGCCTCCTCCTCCAGCAGCCGGCGCAGGTCGGCG
0101-GGCGTGCCGCGCTCCAGAATCAGGGCCAACCGATGGGAGGTCGCCACCCC
0151- CTCCAGCCCGTTGCGCAGCGACATCTGCACCCGGTCGAAGAACTGCCGCG
0201- CCGTGCCCAGGTCGGAGCTGACCTTGTTGACCAGAAGCTGGTCGTAGCCC
0251- TGCGTCCCCCAGGCCCAGACGATCATCAGCAGAACCGGCGCGCCGACCAG
0301- CAGCGGCGCCAGCACCAGCGCCAGCAGCTTGAGCCGCACCGACTCCGCGT
0351- AGGCCGCCGCCAGCCGCTTCAGCATGTTGGGCCGGGACGGGTTGGGGCGA
0401- GGCGCCGAGGATGGCGCCGGAGATGGAGGCGTCACACCCCCCATTCCACG
0451- CATTTCCGGTCCAGCGTCTTGCGCGACACGCCCAGCAGATCGGCGGCGCG
0501- CGTCTTGCTGCCGTCACAGCGCGCCAGCACGGTCAGGATGTGGCGCTTCT
0551- CCACCTCGGCCAGCGGCAGCACGTCGCTGTCGCCGTCCATGCGGACGTGG
0601- CGGACCGGACAGGGGGCGCAGGGCGGGTTGCCGGCCACCGCGGCGGCGCA
0651- CAGGCTGGGGTCCGCGGCCAGGCCGGCCTCCACCGCCGCGGCGTTGGCGG
0701- TGTCCAGATCGTCGAGCGGGAATTCGCCGAGCAGCAGCGACCGCTCCACG
0751- AAGTTGCGCAGCTCGCGCACGTTGCCGGGCCAGGAATGGCACATCAGCGC
0801- CCGCGTCACCTCCGGCGTCAGGGTCAGCGGCGGCACGGCCAGCCGCACCG
22
0851- GCAGGAAGCGCATGAACAGCGCGGCCAGCTCCGGCACGTCCACCGCGCGC
0901- TGGCGCAGCGGCGGAATGGTCAGTGTCATCACCTCCAGCCGGTAGAACAG
0951- GTCCGGGCGGAAGCGCCCCGCCGCGGCCTCCGCCTTCAGGTCGCGGTTGG
1001- TGGCGGTGACCACGCGGACGTCCACCGGCACCTCCTGTTCGCTGCCGACC
1051- GGGCGGATGCGCCGCTCCTCCAGAACGCGCAGCAGCTTGGATTGCAGGGT
1101- CAGCGACAGCTCGCCGATCTCGTCCAGGAACAGCGTGCCGCCGTGGGCGT
1151- AGTAGAACAGCCCCTTGCGCGCGTCCTTGGCCCCGGTGAAGGCGCCGCGG
1201- GCGTGGCCGAACAGCTCCGCCTCGATCAGGTCGGCGGAGATCGCCGCGCA
1251- ATTCACCGCCACGAAGGGCCGGTCGGCGCGCGGCGACAGGTCGTGCAGCG
1301- CGCGGGCGACCAGCTCCTTGCCCACGCCGGACTCGCCCTGGATCAGCACG
1351- GTGGACGGGGTCGGCGCCACCCGCTGCACCAGCGAGCGCAACCGCATCAT
1401- GGCGTCCGACCGCCCGACAATCTCATCGCGCCCGTTGTCCTTCTTCGACA
1451- GCTGCCGACGCAGAACATAGTTCTCGCGGGTCAGCCGGGTGCGCTCGACG
1501- CAGCGGTCGATGGAGTTCAGGATCTGCTCGACCCGGAAGGGCTTCAGCAC
1551- GAAATCCGCGGCACCGGAGCGCAGGGCGTCGATGGCCGTGTCCATGTCGG
1601- CGAAGGCGGTGACCAGGATCACCTCGCCGGCGTAGCCGCCGGCCATCAGC
1651- TCCTTCAGCCAGTCCAGCCCCGAGCGGCCCGGCAGGGCGACGTCGAGGAT
1701- GATGACCTCGGCGTGGATGCGCTCCAGCGTCCGGGCGCCCTCCTCGGCGC
1751- TGCCCGCCACCTCGACCCGCCAGCCGCGCCGCTCCAGCGCGCGCGACAGA
1801- AAGCTGCAAATCCCCTCCTCATCGTCCACCACGAGGATGGAGGGCTTCGC
1851- CTGATCCTCCATTCGGCCCCCTTCCGGCGCGCTGCGGTCGGACGGGGTGG
1901- AGACAGGCGCGGTCATGGTCATCACTGTGCACTCGGCGGCGGAAAGCCCC
1951- ACAGTCTAAGGGAGCATAGCCAAGCCGGGCCAGTGATTTCCGAAATCCGG
2001- AATAGTCCCAGCGTCCCGCTTGGACAACCGCGCCGCGCCATGCGACGCTC
2051- TCCCGCTCATCGCACAGACCGGGAGCCGACCGTGACGGACACCAGCGGAT
2101- CATTTGTCCATGCCGGACCGCGCATCGCCGACACCGGCATCAGTGATGCC
2151- GAGTGGCAAGCCCGGATCGATCTCGCCGCCGCCTACCGCCTGGTCGCCGA
2201- GCGCGGCTGGGACGACCTGATCTACACCCACATCTCGCTGGCCGTGCCGG
2251- GGGAGCCGGGGCGCTTCCTCATCAACCCCTTCGGCCTGACCTTCGGCGAG
2301- GTGACCGCCTCCAACCTCGTGAAGATCGATATCCACGGCGCCATCATCGG
2351- CGACAGCCCCCACCCGGTGAATACCACCGGCTTCGTCATCCATGGCGCCG
2401- TCCATGCGGCGCGCGAGGACGCGCGCTGCGTCATGCACCTTCACAACGAG
2451- GCGGCGGTGGCGGTGTCGATGCTGAAGGACGGGCTCCTCCCGCTGTCCCA
2501- GCACGCCCTGCGCTTTTACCGCGACCTCGCCTATCACCGGTACGAGGGGC
2551- TGGCCCTGACCGACAGCGAGAAGGTCCGCCTCGTCGCCAATCTCGGCACC
2601- CGCCGGGCGATGCTCCTCCACAACCACGGCAGTCTGGTGACCGGGCGCAC
2651- GGTGGCGGAGGCCTTCTGCCTGATGGACATGCTGGACAAGGCGTGCCGGA
23
2701- TGCAACTCGCCGCGCAGGCCACTGGCGCGGAACTGGTGTCGCCGCCGCCG
2751- GAGCTGTGCGACAAGACCTACCGGCAACTCACCGCCGATCCGGAGCCGGA
2801- AGGCGAACTGGAATGGCCGGCGCTGCTGCGACGCCTGGACCGGCGCTGCC
2851- CGGACTACAGGAACTGAGCTTTCCGGACCGCGGTCCGCAACAGAGGGGAT
2901- GGAACGACTATGCCGCTGATCAACGTTCAGCTTTTCGAAGGCCGCACGCT
2951- GGAGCAGAAGCGCGCCTACGCCAAGGCGCTCACCGACGCCTCGGTCGCGG
3001- TGCTCGGCTGCAGCCCGGAGGCGGTCGATGTCATCTTCCACGACGTGAAG
3051- AAGAGCGATTGGGCCAGCGGCGGCAAGCTGTGGTCCGACCCCGAGTGACA
3101- TTCGCTTCCCGGACGCCCATGGGAAGCATTGCTCACCCCATGGGCATCCG
3151- GACAAAAAACAGGCAGACCAATCCCTGGCCTGCGTTCAAACCGCACCCAC
3201- CGTCTTGCCCGTGAGACGGTAAACCGCGGTGGCGACCGCCCGGTCCTCGC
3251- TGTCGCCGACCTCCATGCGCCGGTCGATGTAGTTGCCGAGAAACTCGACC
3301- AGCGCGTCGCGGGTGACCGACTGCACCCACTGGCCATGCCGGCCATAGGC
3351- TTGCAGCGTCCAGAATTCCGAGGCCATCAGCGCCGAGCGGACGGATTTGG
3401- ACGAGCCGTCCCAATGCGACCACAGAAAGTCGATGGCACTCTGAGCGACC
3451- GTAATCACCAAACCGGCATTGATTCCGCGTGACGCCATCGTAGTCTCCCT
3501- CTCAGCTTGCCGAGCGGACGCTCGTGAACGGAACTCGTTCAGCAAAAGCA
3551- GTGCCAGGGAGACCGAAACAAAAAGCCGTACCTCGTTCGGATGCGATTCG
3601- CCGGAAATCCAGACCAGACACGGGAGGAGTGGCCATGAACGCGCAAGAAG
3651- AGCAACGGGCGCGCGACGCGCTGAAATGCATCGACCGCGATCTCGACGCG
3701- CTCGACATCCAGATCGCCGCCTTGCAGGCGCGGCAACGATCCGGGACCTC
3751- CCTCGACCAATACATCCGCGTCCGTGACGCCCTGCTGACGGAGGCTCAGA
3801- CGATCCTGACCCAGCTCGATCGCCGCCCCGGCAACCAGTCCCCTCCCCCG
3851- CCGGTGGCGGGGGAGGGCTAGAAAGGGGCCCCGCGTCAACACTTCGGCAC
3901- AATGGTTCTGTTAGGCGCTCTGAAACGCTCTCAGGGGAGTCGGTCACCAG
3951- AATCTCAAGCAGGTCACCGTTGGAATGGGCCTGATAGACGTTAGCAACGT
4001- CCATTTTTCCGGCCAGCAGACTCATCGGATCGGGGTAAGTCAGGTGAAAG
4051- AACGTTTGGCCTGCTTCTAGGCTGAGCGCAAGGCGGTC
24
O próximo passo após a identificação da seqüência é planejar um esquema de
clonagem gênica para expressar a proteína de interesse do fragmento. No nosso caso a
proteína escolhida foi a proteína regulatória sigam 54, e a justificativa além daqueles
apresentados na analise de vizinhanças, se baseia na possível importância de aplicação
desta proteína. Essa importância será melhor elucida no tópico sobre a importância do gene,
mas de qualquer forma é possível citar que por ser uma proteína regulatória envolvida com
sigma 54 provavelmente esta relacionada com a regulação da transcrição de algum ou
alguns outros genes. Desta forma, cloná-la torna-se interessante frente a possibilidade de
poder modificá-la para torná-la mais eficiente ou de ação mais próxima à desejada em
algum outro processo que evolva sua ação como regulador.
A clonagem gênica pode ser realizada pela inserção de uma molécula de DNA num
vetor para produzir uma molécula recombinante. Ambos os fragmentos de DNA, seqüência
e vetor devem ser clivados pelas mesmas enzimas de restrição, e então misturados numa
solução adequada para que ocorra o encontro das pontas aleatoriamente. Dependendo a
situação, enzimas escolhidas, o fragmento do seu DNA pode ser inserido na direção
contrária. O vetor então é inserido numa célula hospedeira e passa a se multiplicar
juntamente com a célula. No entanto por este método de clonagem e amplificação pode
haver algumas dificuldades, entre elas como se deve clivar com enzimas corre-se o risco de
clivar a seqüência de interesse no meio, inserir fragmentos que não sejam aquele de
interesse, inserir na direção contraria.
Uma segunda estratégia é realizar primeiramente a amplificação da seqüência por
PCR. PCR é a sigla para reação em cadeia da polimerase, que se trata de um método de
amplificação do DNA sem a utilização de organismos vivos. Ela é executada em um único
tubo de ensaio, a partir de uma mistura de DNA com um conjunto de reagentes.
Numa reação de PCR as etapas básicas são:
1. Desnaturação: A mistura é aquecida a 94°C (temperatura na qual as pontes de
hidrogênio que mantém as duas fitas de DNA unidas se rompem, liberando as fitas
simples).
2. Anelamento: Mistura resfriada a 50 e 60°C (as duas fitas originais poderiam voltar a
se unir mas isso não acontece pois na mistura há uma seria de pequenas
moléculas de DNA, os iniciadores, que se anelam rapidamente ao DNA).
3. Extensão: A temperatura é elevada a 74°C (Temp. ótima para a atividade da DNA-
polimerase de Taq). Neste estagio, esta DNA polimerase liga-se a uma das
extremidades dos iniciadores e sintetiza nova fita de DNA complementar a fita
molde.
4. O processo descrito a partir do item 1 então é repedido novamente até que se
tenha o tamanho de amplificação desejada.
25
Após a amplificação com PCR as etapas seguintes da clonagem são:
Digestão, através da(s) mesma(s) enzima(s), dos vetores e dos fragmentos
amplificados para gerar pontas coesivas em ambos;
União pelas pontas coesivas entre os vetores e os fragmentos de interesse (DNA
ligase);
Transformação da célula hospedeira (microrganismo);
Seleção dos transformantes;
Superexpressão e purificação do produto.
O vetor escolhido foi pET28a devido ao fato de que tem um promotor forte ou seja é
transcrito pela T7 RNA polimerase, a qual é muito seletiva e ativa, sendo capaz de alongar
cadeias de RNA aproximadamente 5 vezes mais rápido que a RNA polimerase de E. coli.
Alguns vetores pET podem apresentam o promotor T7-lac, assim a expressão da proteína
esta sob o controle lac e reduzindo portanto a expressão da proteína alvo na ausência de
IPTG.
26
Fig. 13 - Vetor pET-28 a ( Novagen) usado para realização do processo de clonagem
O microrganismo transformado por este vetor será BL21(DE3) Escherichia coli, pois
possui gene codificador de RNA polimerase T7, necessária para a expressão de proteínas
heterólogas a partir do vetor pET28a. Além disso, a E. coli possui metabolismo elucidado e,
portanto, seu cultivo e regulação de genes ficam facilitados.
27
2.12.3 Escolha da Enzima de Restrição
Name: Untitled
Conformation: linear
Enzymes: BamHI, EagI, EcoRI, HindIII, NcoI, NdeI, NheI, NotI, SacI, SalI, XhoI
Noncutters: BamHI, EagI, HindIII, NdeI, NheI, NotI, SacI, SalI, XhoI
Percebe-se que a única enzima que não pode ser utilizada é a EcoRI pois,
considerando que a seqüência da proteína pela qual se optou para fazer a clonagem está
entre as posições 432 e 1867 e a EcoRI cliva na posição 720. O fato que permite que
qualquer uma das outras enzimas seja usada é que , todas elas clivam o vetor no MSC e
como a opção de primer escolhida é o primer mutagênico, é possível criar as pequenas
seqüências inserindo a da enzima que se escolher trabalhar.
A enzima que vamos escolher trabalhar é a Bam H1 que ao clivar sua seqüência de
reconhecimento cria pontas coesivas (aumentam a especificidade da união entre vetor e o
fragmento amplificado) e tem uma seqüência de reconhecimento relativamente pequena o
que possibilita a montagem do primer mutagênico:
28
2.12.4 Desenho do primer
Considerando que a fita da forma que foi apresenta esta no sentido 5’-3’
2.12.6 Transformação
29
membrana e permitir a entrada do vetor na bactéria. Ela é então rapidamente transferida
para meio de cultura e incubada a 37ºC para que possa se recuperar após o choque.
A transformação com cloreto de cálcio tem o mesmo objetivo. As bactérias e o vetor
são misturados com uma solução de cloreto de cálcio e sofrem um choque térmico. Os íons
cálcio têm a função de neutralizar as cargas negativas do DNA e da membrana bacteriana,
facilitando a passagem do vetor pela membrana no momento do choque térmico (que,
portanto, tem a mesma função do choque elétrico).
Escolhendo um destes processo na seqüência, deve-se testar quais células
conseguiram incorporar o vetor, e isso pode ser feito analisando-se as próprias propriedades
do vetor. O vetor pET28a apresenta genes de resistência ao antibiótico canamicina, ou seja
se fornecermos este antibiótico ao meio onde a célula esta sedo cultivada só sobreviverão
as células que tiverem o plasmidios contendo o gene de resistência.
30
3 FUNÇÃO DO GENE OU OPERON
31
sequence), essa ligação promove a oligomerização do DNA sendo que para que haja a
interação da proteína ativadora com a RNA polimerase é preciso a formação de uma dobra
na fita de DNA, conforme ilustrado abaixo:
32
3.2 Outros genes relevantes que podem fazer parte do operon
Outros genes que podem estar correlacionados com a função desse EBP podem ser
os genes relacionados com a via metabólica do nitrogênio, que se mostraram bem
conservados em diversos microrganismos e que historicamente são transcritos pela RNA
polimerase sigma54, de modo que sofrem o controle desses ativadores.
Além desse, outro gene que se mostrou conservado em diferentes linhagens de
microrganismos, foi o que codifica a histidina quinase, essa proteína funciona como um
sinalizador, cuja concentração é alterada devido a alterações ambientais, para a transcrição
do ativador de transcrição sigma54, objeto de nosso estudo.
Dessa forma podemos dizer que é possível que essa seqüência genética se trate
de operon, ou pelo menos de parte de um operon.
33
Número total de residues negativamente carregados(Asp + Glu): 68
Número total de residues positivamente carregados (Arg + Lys): 63
Composição atômica:
Carbono C 2297
Hidrogênio H 3748
Nitrogênio N 672
Oxigênio O 679
Enxofre S 18
Fórmula: C2297H3748N672O679S18
Número total de átomos: 7414
Índice de instabilidade:
O índice de instabilidade computou como 39,72, indicando que a protein é estável.
GRAVY: -0.032
34
4 REFERÊNCIAS BIBLIOGRÁFICAS
BAE, K.; MALLICK, B.K.; ELSIK, C.G. Prediction of protein interdomain linker regions by
a hidden Markov model. Bioinformatics, 21, n. 102005, p. 2264-2270, 2005.
BLAST - Basic Local Alignment Search Tool em: NCBI. Disponível em:
<http://www.ncbi.nlm.nih.gov/BLAST/> Acesso em: 28 nov. 2009..
BPROM – Prediction of Bacterial Promoter em: Softberry. Disponível em:
<www.softberry.com> Acesso em: 29 nov. 2009.
BROWN, T.A. Clonagem Gênica e análise de DNA. Porto Alegre: Artmed 2003.
BUCK, M.; GALLEGOS, M.T.; STUDHOLME, D.J.; GUO, Y.; GRALLA, J.D. The Bacterial
Enhancer-Dependent σ54 (σN). Journal of Bacteriology, 182, n.15, p. 4129-4136, 2000.
CHENNA, R.; SUGAWARA, H.; KOIKE, T.; LOPEZ, R.; GIBSON, T.J.; HIGGINS, D.G.;
THOMPSON, J.D. Multiple sequence alignment with the Clkustal seris of programs.
Nucleic Acids Research., 31, n.13, p.3497-3500, 2003.
CLUSTALW - Multiple Sequence Alignment em: Align. Disponível em
<http://align.genome.jp/> Acesso em: 01 dez. 2009
DE BRITO, Rogério Theodoro. Alinhamento de Sequências Biológicas. 2003. 181.f.
Dissertação (Mestrado em Ciência da Computação) – Universidade de São Paulo, São
Paulo, 2003.
DE OLIVEIRA, Marco Aurélio Schüler. Efeito da mutação das cisteínas nas posições 414,
426, 446 ee 451 da proteína NifA de Herbaspirillum seropedicae. 2007. 101.f.
Dissertação (Mestrado em ciências-Bioquímica) Universidade Federal do Paraná,
Curitiba, 2007.
FINDTERM - Finding Terminators in bacterial genomes em: Softberry. Disponível em:
<www.softberry.com> Acesso em: 29 nov. 2009.
FRAMEPLOT 2.3.2 - Frame analysis predicts protein-coding region of high G+C
content bacterial DNA. Disponível em: <http://www.nih.go.jp/~jun/cgi-bin/frameplot.pl>
Acesso em: 28 nov. 2009.
INVITTI, Adriana Luckow. Determinação de sequências de DNA reconhecidas por
proteínas reguladoras de transcrição dependentes do fator sigma 54 da RNA-
polimerase de Herbaspirillum seropedicae. 2006. 129.f.Dissertação (Mestrado em
Ciências – Bioquímica) Universidade Federal do Paraná, Curitiba, 2006.
JENSEN, L.J.; KUHN, M.; STARK, M.; CHAFFRON, S.; CREEVEY, C.; MULLER, J.;
DOERKS, T.; JULIEN, P.; ROTH, A.; SIMONOVIC, M.; BORK, P.; MERING, C.V.
STRING 8 – a global view on proteins and their functional interactions in 630
organisms. Nucleic Acids Research, 37, D412-D416, 2009.
35
KUMAR, S.A. The Structure and Mechanism of Action of Bacterial DNA-Dependent
RNA polymerase. Prog. Biophys. Molec. Biol. V.38, p.163-210, 1981.
KUSTU, S.; SANTERO, E.; KEENER, J.; POPHAM, D.; WEISS, D. Expression of σ54
(ntrA)-dependent genes is probably united by a common mechanism. Microbiol Rev.
V.53(3), p. 367-376, 1989.
LEHNINGER, A.L.; NELSON, D.L.; COX, M.M. Princípios da Bioquímica. São Paulo:
Sarvier. 1995.
MC CLURE, W.R. Mechanism and control of Transcription Initiation in Prokaryotes.
Ann. Ver. Biochem. V.54, p.171-204, 1985.
MERING, C.V.; HUYNEN, D.J.; SCHMIDT, S.; BORK, P.; SNEL, B. STRING: a database of
predicted funciotnal associations between proteins. Nucleic Acids Research, re, n.1,.
p. 258-261, 2003.
MERING, C.V.; JENSEN, L.J.; SNEL,B.; HOOPER, S.D.; KRUPP, M.; FOGLIERINI, M.;
JOUFFRE, N.; HUYNEN, M.A.; BORK, P. STRING: known and predicted protein-
protein associations, integrated and transferred across organisms. Nucleic Acids
Research, 33, D433-D437, 2005.
MORETT, E.; SEGOVIA, R.L. Identificaion of the site of autophosphorylation of the
bacterial protein kinase/phosphatase NRII. J. Biol. Chem. v.266, p.6888-6893, 1991.
NCBI Conserved Domain Search in: NCBI. Disponível em: <http://www.ncbi.nlm.nih.gov>.
Acesso em: 05 dez. 2009.
NOVAGEN. 2002-2003. Protein Expression: Prokaryotic Expression: pETBlue and pET
System Overview. Novagen 2002-2003 Catalog. p 84-91
PROTPARAM in: ExPASy. Disponível em: < http://ca.expasy.org> Acesso em: 03 dez. 2009.
SASSE-DWIGHT, S.; GRALLA, J.D. Probing the Escherichia coli glnALG upstream
activation mechanism in vivo. Proc. Natl. Acad. Sci. USA. V. 85, p. 8934-8938, 1988.
STOCK, A.M.; ROBINSON, V.L.; GOUDREAU, P.N. Two-Component signal transduction.
Annu. Ver. Biochemistry. v. 69, p. 183-215, 2000.
STRING 8.0 - Known and Predicted Protein-Protein Interactions em: Embl. Disponível
em <http://string.embl.de/> Acesso em: 01 dez. 2009.
WÖSTEN, M.M.S.M.; GASTEIGER, E.; BAIROCH, A.; SANCHEZ, J.C.; WILLIAMS, K.L.;
APPEL, R.D.; HOCHSTRASSER, D.F. Protein Identification and Analysis Tools in the
ExPASy Server in: 2-D Proteome Analysis Protocols, 1998.
ZHANG, X.; CHANEY, M.; WIGNESHWERARAJ, S.R.; SCHUMACHER, J.; BORDES, P.;
CANNON, W.; BUCK, M. Mechano chemical ATPases and transcriptional activation.
Mol. Microbiol. V.45, p. 895-903, 2002.
36
ANEXOS
37
ANEXO I - Mapa de restrição
2 Name: Carolina
3 Conformation: linear
8 Noncutters: AarI, AbsI, AccI, AflII, AflIII, AlfI, AloI, AvrII, BaeI, BamHI, BbvCI, BciVI,
BfiI, BglII, BplI, Bpu10I, BsaAI, BsmI, Bsp1407I, BspHI, CspCI, Eco47III, FalI, FspAI,
HindIII, HpaI, KpnI, MfeI, MluI, NdeI, NheI, NotI, NruI, OliI, PacI, PasI, PmaCI, PmeI,
PpiI, PsiI, PI-PspI, PsrI, SacI, SalI, SanDI, ScaI, PI-SceI, SexAI, SgfI, SgrDI, SmaI,
SnaBI, SpeI, SphI, SrfI, Sse8387I, SspI, SwaI, TatI, VspI, XbaI, XhoI
38
BsrDI GCAATG 6 three_prime 1 3126
BstXI CCANNN 6 three_prime 1 1836
NNNTGG
BtsI GCAGTG 6 three_prime 1 3555
Eam11 GACNNN 6 three_prime 1 3405
05I NNGTC
FseI GGCCGG 8 three_prime 1 676
CC
PstI CTGCAG 6 three_prime 1 3012
PvuI CGATCG 6 three_prime 1 3820
TsoI TARCCA 6 three_prime 1 1983
XcmI CCANNN 6 three_prime 1 1833
NNNNNN
TGG
BalI TGGCCA 6 blunt 2 3333, 3632
HindII GTYRAC 6 blunt 2 228, 3887
MslI CAYNNN 6 blunt 2 1834, 1924
NRTG
XmnI GAANNN 6 blunt 2 1540, 3535
NTTC
AclI AACGTT 6 five_prime 2 2923, 4052
ApoI RAATTY 6 five_prime 2 720, 3363
AvaI CYCGRG 6 five_prime 2 1669, 3090
BspMI ACCTGC 6 five_prime 2 81, 3950
ClaI ATCGAT 6 five_prime 2 2167, 2326
EcoRI GAATTC 6 five_prime 2 720, 3363
SapI GCTCTTC 7 five_prime 2 3045, 3642
SgrAI CRCCGG 8 five_prime 2 1626, 3850
YG
SmlI CTYRAG 6 five_prime 2 328, 3954
AatII GACGTC 6 three_prime 2 1021, 1693
AjuI GAANNN 7 three_prime 2 4038, 4070
NNNNTT
GG
ArsI GACNNN 7 three_prime 2 1255, 1287
NNNTTYG
BarI GAAGNN 7 three_prime 2 2949, 2981
NNNNTA
C
BdaI TGANNN 6 three_prime 2 1599, 1633
NNNTCA
BsaXI ACNNNN 6 three_prime 2 7, 37
NCTCC
DraIII CACNNN 6 three_prime 2 2366, 3044
GTG
NspI RCATGY 6 three_prime 2 376, 2681
SfiI GGCCNN 8 three_prime 2 673, 3339
NNNGGC
C
TspDTI ATGAA 5 three_prime 2 877, 3650
DraII RGGNCC 6 five_prime 3 3744, 3876, 3877
Y
NcoI CCATGG 6 five_prime 3 2390, 3117, 3138
PfoI TCCNGG 6 five_prime 3 1123, 3107, 3740
A
AlwNI CAGNNN 6 three_prime 3 237, 1523, 2863
CTG
BseSI GKGCMC 6 three_prime 3 207, 1931, 3880
PflMI CCANNN 6 three_prime 3 132, 237, 3174
NNTGG
39
BtrI CACGTC 6 blunt 4 572, 596, 887, 3044
BsmAI GTCTC 5 five_prime 4 1894, 3207, 3498, 3553
BtgZI GCGATG 6 five_prime 4 1409, 2043, 2108, 2622
PleI GAGTC 5 five_prime 4 335, 1324, 3945, 4013
RsrII CGGWCC 7 five_prime 4 602, 2115, 2875, 2882
G
TfiI GAWTC 5 five_prime 4 117, 3471, 3595, 3950
BsgI GTGCAG 6 three_prime 4 160, 1314, 1359, 3306
DrdI GACNNN 6 three_prime 4 1503, 2991, 3240, 3303
NNNGTC
StyI CCWWG 6 five_prime 5 1175, 2390, 2971, 3117, 3138
G
Eco57I CTGAAG 6 three_prime 5 352, 969, 1527, 1638, 2493
TspGW ACGGA 5 three_prime 5 2100, 3406, 3543, 3761, 3803
I
BseYI CCCAGC 6 five_prime 6 481, 654, 2007, 2206, 2497,
3810
BcgI CGANNN 6 three_prime 6 3246, 3264, 3280, 3298, 4005,
NNNTGC 4039
BseMII CTCAG 5 three_prime 6 2855, 3432, 3515, 3809, 3944,
4063
MmeI TCCRAC 6 three_prime 6 192, 1430, 1868, 2335, 3109,
3950
SduI GDGCHC 6 three_prime 6 62, 207, 1931, 2485, 3004, 3880
TstI CACNNN 6 three_prime 6 7, 39, 2676, 2708, 2771, 2803
NNNTCC
NaeI GCCGGC 6 blunt 7 86, 632, 674, 1628, 1640, 2818,
3340
BstEII GGTNAC 6 five_prime 7 1005, 1608, 2300, 2636, 3312,
C 3942, 3962
BsrI ACTGG 5 three_prime 7 1659, 1980, 2726, 2737, 2812,
3334, 3835
HaeIV GAYNNN 6 three_prime 7 122, 156, 2088, 2106, 2122,
NNRTC 2140, 3424
MboII GAAGA 5 three_prime 7 199, 1434, 2333, 3026, 3059,
3062, 3659
TspRI CASTG 5 three_prime 7 927, 1929, 1987, 2147, 2726,
3334, 3555
BsrBI CCGCTC 6 blunt 8 716, 743, 1064, 1674, 1781,
2055, 3387, 3514
NarI GGCGCC 6 five_prime 8 306, 402, 414, 1192, 1364,
1735, 2338, 2395
BglI GCCNNN 6 three_prime 8 640, 673, 848, 1050, 2715,
NNGGC 3339, 3725, 3828
GsuI CTGGAG 6 three_prime 8 61, 97, 136, 918, 1053, 1707,
1767, 2970
SacII CCGCGG 6 three_prime 8 641, 665, 689, 974, 1198, 1559,
2881, 3227
BseRI GAGGAG 6 three_prime 9 52, 61, 64, 1056, 1731, 1806,
2475, 2604, 3639
Hin4I GAYNNN 6 three_prime 10 123, 155, 2089, 2107, 2121,
NNVTC 2139, 3391, 3423, 3778, 3810
TaqII GACCGA 6 three_prime 10 2548, 2574, 2981, 3007, 3305,
3331, 3551, 3577, 3930, 3956
EcoRII CCWGG 5 five_prime 11 206, 258, 667, 779, 1123, 1336,
1612, 2188, 2833, 3173, 3553
EciI GGCGGA 6 three_prime 11 55, 615, 926, 969, 972, 1068,
1206, 1249, 1954, 2565, 2670
AvaII GGWCC 5 five_prime 12 458, 602, 659, 950, 2115, 2573,
2837, 2875, 2882, 3082, 3242,
40
3744
EcoP1 CAGCAG 6 five_prime 12 67, 70, 109, 307, 328, 352, 513,
5I 762, 1110, 2795, 3754, 4044
SfaNI GCATC 5 five_prime 12 1046, 1403, 1706, 2131, 2135,
2146, 2458, 2599, 2689, 3153,
3580, 3687
BccI CCATC 5 five_prime 13 126, 404, 416, 1503, 1575,
1651, 1830, 2349, 2666, 2892,
3382, 3426, 3493
FokI GGATG 5 five_prime 13 422, 549, 1068, 1710, 1728,
1848, 2373, 2711, 2910, 3131,
3602, 3692, 3749
Eco57 CTGRAG 6 three_prime 13 61, 97, 136, 352, 918, 969,
MI 1053, 1527, 1638, 1707, 1767,
2493, 2970
NmeAII GCCGAG 6 three_prime 13 430, 535, 752, 1687, 1723,
I 1912, 2174, 2222, 2572, 2983,
3311, 3408, 3535
BsePI GCGCGC 6 five_prime 14 288, 496, 519, 895, 1167, 1276,
1298, 1787, 1789, 1877, 2409,
2421, 2960, 3659
CfrI YGGCCR 6 five_prime 14 557, 632, 665, 836, 872, 1204,
1583, 1640, 2239, 2814, 3331,
3340, 3630, 4010
Tsp45I GTSAC 5 five_prime 14 430, 512, 804, 1005, 1608,
2081, 2300, 2636, 3094, 3312,
3478, 3773, 3942, 3962
Hpy99I CGWCG 5 three_prime 16 34, 576, 714, 1460, 1500, 1581,
1692, 1695, 2047, 2586, 2833,
2988, 3045, 3309, 3668, 3698
HaeII RGCGCY 6 three_prime 19 309, 321, 405, 417, 546, 800,
966, 1195, 1367, 1738, 1750,
2264, 2341, 2398, 2823, 2846,
2979, 3383, 3918
HphI GGTGA 5 three_prime 19 798, 921, 1017, 1197, 1245,
1611, 1620, 2312, 2378, 2526,
2648, 2771, 2972, 3125, 3324,
3447, 3936, 3956, 4055
AcyI GRCGYC 6 five_prime 20 29, 306, 402, 414, 429, 815,
1018, 1192, 1364, 1402, 1576,
1690, 1735, 2338, 2395, 2831,
2986, 3113, 3482, 3777
Cfr10I RCCGGY 6 five_prime 20 84, 284, 630, 672, 847, 938,
1024, 1268, 1626, 1638, 2133,
2376, 2536, 2770, 2816, 2839,
3269, 3338, 3462, 3850
FauI CCCGC 5 five_prime 22 12, 16, 20, 91, 616, 709, 808,
975, 1190, 1295, 1378, 1469,
1761, 1774, 2023, 2060, 2497,
2607, 3302, 3850, 3855, 3888
BbvI GCAGC 5 five_prime 29 48, 51, 93, 177, 312, 336, 494,
578, 743, 746, 770, 917, 1028,
1091, 1094, 1307, 1360, 1438,
1512, 1736, 1790, 1868, 2412,
2809, 2812, 2832, 2994, 3022,
3365
HgaI GACGC 5 five_prime 29 18, 241, 418, 453, 489, 792,
804, 1160, 1391, 1466, 1506,
1565, 1716, 2000, 2053, 2417,
2427, 2839, 2994, 3121, 3293,
41
3345, 3490, 3526, 3674, 3704,
3757, 3785, 3872
TseI GCWGC 5 five_prime 29 36, 39, 81, 165, 300, 324, 507,
566, 731, 734, 758, 905, 1041,
1079, 1082, 1295, 1373, 1451,
1500, 1749, 1803, 1881, 2425,
2822, 2825, 2845, 3007, 3010,
3353
TauI GCSGC 5 three_prime 48 109, 198, 306, 336, 356, 359,
366, 496, 566, 643, 646, 667,
688, 691, 830, 833, 845, 874,
911, 973, 976, 1064, 1140,
1197, 1246, 1283, 1561, 1638,
1677, 1776, 1781, 1939, 2035,
2178, 2181, 2206, 2409, 2454,
2712, 2744, 2747, 2915, 2944,
3070, 3073, 3719, 3733, 3825
PspXI VCTCGA 8 five_prime 176 31, 34, 37, 49, 61, 76, 79, 112,
GB 151, 163, 212, 218, 232, 238,
242, 274, 295, 298, 307, 313,
319, 322, 328, 358, 367, 459,
480, 508, 514, 522, 546, 558,
564, 577, 655, 711, 726, 729,
732, 744, 756, 762, 792, 822,
837, 853, 864, 873, 879, 900,
903, 933, 958, 1042, 1065,
1077, 1080, 1086, 1098, 1104,
1110, 1128, 1155, 1209, 1215,
1293, 1308, 1314, 1341, 1374,
1377, 1381, 1446, 1452, 1479,
1494, 1498, 1527, 1542, 1564,
1630, 1644, 1650, 1653, 1662,
1669, 1722, 1750, 1768, 1782,
1798, 1804, 1845, 1882, 1941,
1959, 1964, 1969, 2006, 2019,
2048, 2056, 2070, 2090, 2155,
2196, 2207, 2238, 2250, 2264,
2351, 2381, 2426, 2472, 2484,
2493, 2496, 2513, 2550, 2561,
2613, 2682, 2748, 2754, 2790,
2823, 2826, 2846, 2863, 2869,
2916, 2925, 2931, 2949, 2955,
2979, 3003, 3008, 3050, 3062,
3072, 3078, 3105, 3121, 3132,
3250, 3297, 3350, 3351, 3375,
3382, 3400, 3440, 3500, 3506,
3509, 3521, 3537, 3543, 3570,
3647, 3671, 3701, 3785, 3795,
3809, 3815, 3868, 3918, 3928,
3954, 3989, 4011, 4064, 4071,
42
ANEXO II – Informações sobre possíveis proteínas codificadas pelas ORFs, dadas pelo
programa Blast.
ORF 2:
43
lfhyahggtlfldeigelplalqsrllrvleerkvrpvgteqevpvdvrvlaatnrdlra
evaacrfredlfyrlevitltvpplreraedvpalaaafmqqlamqlglppllispevsa
rlmahpwpgnvrelrnfversllfgdfplaslagavappppasaapllleevekrhilav
ldqcggnktraaellgvsrktlerkcaewsv
44
Bacteria; Proteobacteria; Deltaproteobacteria; Desulfovibrionales; Desulfomicrobiaceae;
Desulfomicrobium;
mgnhiliiddeknyllvleaileeegytvtalgdpamamtyldesevdvvitdmkmpgmt
gqqvletvrkrhphvpvmimtafgtidraveamksgafdyitkpfsndeillsvgkamkl
shaeqqnrllreslaekfgketiignskpiqdvltlagkvaptrsnvlvtgesgtgkelv
araihitsdrkdmpfisvncmslnpgvleselfghekgsftgamalkrgrfelaqggtlf
ldeigelsqemqvkllrvlqerviervggtetiavdfrlvaatnktlqeeivagrfredl
fyrlnvvnihlpplrerredipilashflrkfslennrqvqgftpgaidylsayewpgnv
rqlenviercvvlsnrdvidvddlppelrdeemqfksavdllplkvnlsetlekieaali
rramvhsgfvqvktaelldvsksllqyklkkykitakt
Dickeya dadantii Ech586 (1e-74)
nitrogen metabolism transcriptional regulator, NtrC, Fis
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae;
Dickeya;
mqrgivwivdddssirwvleraltgagltcatfdngtqalnalttqtpdvllsdirmpgm
dglallqqikqrhpmlpviimtahsdldaavsayqqgafdylpkpfdideavalverais
hyleqqqpvrsqpisgpttdiigeapamqdvfriigrlsrssisvlingesgtgkelvah
alhrhsprakapfialnmaaipkdlieselfghekgaftganqirqgrfeqadggtlfld
eigdmpldvqtrllrvladgqfyrvggyaavkvdvriiaathqnlelrvqegkfredlfh
rlnvirvhlpplrerrediprlaryflqatakelgvepknlhpeteaaltrlpwpgnvrq
lentcrwltvmaagqevliqdlppelfettapdatvhvmpdswatllaqwadralrsghq
nllaeaqpemertllttalrhtqghkqeaarllgwgrntltrklkelgme
45
tanndiskeierlfddllfekkreknhemllfitqnirqlletiessyqirfngslvyal
stylfqrrcidwfpekepttvidelltevqtklatsygyaeqlltlvkrsldielsqmdr
iivtiylhysgsvkeshypkavivahgyatassianvanrllnvpifqsfdmpldvtpkk
isehlihymerqetrnglvilfdmgslkeiyqyfpaeeegpfllmnnvttslalsigeai
kdevsfeelpqkaltvhpneweiilpenktervilttcstgigtavkirdllekslpaea
qlkiipceynqlrnaesikesfpeyeivgiigtnnpssndlpyisleeliagkgittlle
wtkreltkdmlsyvnhelirnfsldrviqsvtildtekiirqvevfliqleerwqqtiqn
drklavyvhvsclierlirnepienyngaeqlkqcqrtvlqelkeafsviekvysvnipe
selfyvydvlfgktefnnaesdf
46
47
ORF 3:
48
maqvqlaetsqdrvkervsdaewrmrvdlaaayrlvahfgwddlifthisarvpdapdqf
linpygmmfdeitasslvkvdhhgepvldtpydvnpagfiihsavhearpevgcvmhtht
ahgvavsaqqdgllpisqqamfaltglayhdyegvalredekarlvadlgrckqmilrnh
glltcgrtvadafltmytlesacriqilaqsggtaltrvppaasanmgqqarqatkgkgs
nlawpgllrrldrinpdyrn
49
rverrfpgydk
50
ANEXO III – Outras informações obtidas pelo programa String.
ORF 2:
51
ORF 3:
52
ANEXO IV – Informações dadas pelo programa ExPASy – ProtParam
ORF 2:
Atomic composition:
Carbon C 2297
Hydrogen H 3748
Nitrogen N 672
Oxygen O 679
Sulfur S 18
Formula: C2297H3748N672O679S18
Total number of atoms: 7414
53
Extinction coefficients:
Estimated half-life:
Instability index:
The instability index (II) is computed to be 39.72
This classifies the protein as stable.
54
ORF 3:
Atomic composition:
Carbon C 1334
Hydrogen H 2114
Nitrogen N 396
Oxygen O 394
Sulfur S 12
Formula: C1334H2114N396O394S12
Total number of atoms: 4250
55
Extinction coefficients:
Estimated half-life:
Instability index:
The instability index (II) is computed to be 36.39
This classifies the protein as stable.
56