Você está na página 1de 5

Seqenciamento e Bioinformtica de

Pesquisa

Genomas Bacterianos
Ilustraes cedidas pelos autores

Estratgia para seqenciamento completo de genomas bacterianos


primeiro organismo a ter seu genoma completamente seqenciado foi a bactria Haemophilus influenzae, cujo trabalho foi concludo em 1995 por um grupo do TIGR (The Institute for Genomic Research) nos Estados Unidos. Foi utilizada a estratgia de seqenciamento genmico completo por fragmentos aleatrios de DNA, eliminando assim a necessidade de abordagens de mapeamento genmico (Fleischmann et al. 1995). A capacidade de seqenciar genomas bacterianos completos usando essa estratgia, acoplada a mtodos computacionais de algoritmos que auxiliam a montagem, incrementou o nmero de genomas bacterianos seqenciados nos bancos de dados. Hoje, sete anos depois da publicao do primeiro genoma completo, temos pelo menos 60 genomas microbianos concludos ( http://www.tigr.org/tdb/ mdb/mdbco-mplete.html) e mais de uma centena em andamento (http:// www.tigr.org/tdb/mdb/mdbinprogress. html). Os programas de predio gnica, utilizados com muita eficincia em genomas bacterianos, associados anotao funcional, tm trazido informaes importantes do ponto de vista biolgico. Alm disso, a anlise comparativa de genomas bacterianos tem contribudo para a identificao de mecanismos adaptativos e tem permitido inferncias nos aspectos evolutivos dessas formas de vida. Estima-se que as seqncias contidas nos bancos de dados representem 250.000 genes preditos (Fraser & Dando, 2001), os quais devem contribuir nos estudos de doenas infecciosas e tambm na compreenso dos mecanismos de instalao de doenas em vegetais. Em 2001, o Brasil incorporouse era genmica com a publicao da seqncia completa do genoma da bactria Xylella fastidiosa, causadora do amarelinho em culturas de citros (CVC Citrus Variegated Chlorosis) (Simpson et al. 2000). Esse foi o primeiro fitopatgeno no mundo a ser seqenciado completamente. Depois disso, pelo fato de o Brasil movimentar uma grande parcela de sua economia em produtos agrcolas, foi colocado grande interesse na elucidao de outros genomas de patgenos de culturas de interesse nacional como cana-deacar, citros e outros. Dessa forma, outras bactrias tiveram seus genomas seqenciados completamente por grupos de cientistas brasileiros, como dife-

Dirce Maria Carraro, PhD


Instituto Ludwig de Pesquisa sobre o Cncer So Paulo SP dcarraro@ludwig.org.br

Joo Paulo Kitajima, PhD


Alellyx Applied Genomics Campinas SP joao.kitajima@alellyx.com

Figura 1: A) Representao simplificada de reao de seqenciamento. dNTPs: representados em verde, ddNTP: representados em vermelho, amarelo, azul e verde limo B) Representao da separao por tamanho dos supostos fragmentos gerados pela adio de ddNTP na reao de polimerizao
16 Biotecnologia Cincia & Desenvolvimento - n 28- setembro/outubro 2002

rentes cepas de Xanthomonas citri, bactria causadora do cancro ctrico (da Silva et al. 2002), outras cepas de Xylella fastidiosa que infectam especificamente outras culturas (finalizado; artigo submetido a publicao) e Leifsonia xyli subsp. xyli, causadora do carvo da cana-de-acar (finalizado; artigo em preparao). Todos esses projetos foram total ou parcialmente financiados pela FAPESP (Fundao de Amparo a Pesquisa do Estado de So Paulo) em parceria com outros grupos da iniciativa privada, especialmente empresas de interesse agrcola. A anlise comparativa dos diferentes genomas de patgenos de plantas trar informaes importantes na elucidao de mecanismos de instalao da doena em vegetais e tambm na identificao de novos agentes envolvidos nesse processo. Alm disso, informaes importantes esto sendo atribudas a mecanismos especficos de interao entre patgeno-hospedeiro. O sucesso desse empreendimento por parte da FAPESP lanou interesse de outras instituies a financiar projetos desse tipo. O primeiro projeto de mbito nacional financiado pelo CNPq (Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico) e pelo MCT (Ministrio da Cincia e Tecnologia) foi o seqenciamento da bactria Chromobacterium violaceum, que possui compostos com propriedades teraputicas e antitumorais (Duran et al. 2001). Nesta reviso ns abordaremos uma estratgia utilizada para seqenciamento completo de microrganismos procariotos, tanto no que concerne tcnica de seqenciamento e elaborao de bibliotecas de fragmentos aleatrios de DNA, quanto aos recursos bioinformticos necessrios, a saber: programas especiais de montagem, de predio de genes e de anotao funcional. Seqenciamento de DNA Desde a primeira evidncia, em 1944, em estudos com Pneumococcus, obtida por Avery, McLoad e McCarty, de que a molcula de DNA era a responsvel pela transferncia da informao gentica de uma gerao para outra, muitos estudos foram conduzidos para compreender sua composio e estrutura. Vrias evidncias obtidas naquela poca levaram concluso de que o DNA uma molcula

Figura 2: Esquema simplificado das etapas para elaborao de bibliotecas de DNA genmico
longa e fina, composta de 4 diferentes tipos de molculas chamadas nucleotdeos. Cada nucleotdeo contm um grupo fosfato, uma desoxiribose (acar) e uma base nitrogenada, a saber: adenina, timina, citosina e guanina. Os resultados obtidos pelos estudos de raio-X realizados por Rosalind Franklin e Maurice Wikins levaram Watson e Crick, em 1953, a decifrarem a estrutura de dupla hlice dessa molcula. A determinao de sua estrutura e da complementaridade de suas fitas lanou bases para que se compreendesse como essa molcula poderia ser duplicada e, dessa forma, como a informao gentica poderia ser transferida de uma gerao para outra, mantendo, portanto, a caracterstica semiconservativa. A partir dessas descobertas, a comunidade cientfica concentrou muitos esforos a fim de desvendar a informao gentica contida na molcula da vida. O mtodo mais utilizado para identificao das bases do DNA o mtodo de terminao da cadeia, tambm conhecido como mtodo de Sanger (Sanger et al. 1977). Esse mtodo baseado na capacidade da enzima DNA Polimerase estender a cadeia polinucleotdica a partir de um iniciador ancorado por complementaridade em uma das fitas (fita molde). Como as fitas de DNA so complementares (A:T e C:G), a partir do molde, a enzima vai adicionando o nucleotdeo complementar necessitando do grupo hidroxila livre (OH) na posio 3, componente do desoxinucleotdeo anterior (dNTP). Para identificar a seqncia de uma molcula de DNA, necessrio adicionar a essa reao altas concentraes de nucleotdeos que interrompam a polimerizao da cadeia, que so denominados didesoxinucleotdeo (ddNTP) que so nucleotdeos em que a pentose perdeu o grupo hidroxila da posio 3 (OH) necessrio continuidade da polimerizao da cadeia. Durante os ciclos de polimerizao, os ddNTPs vo sendo incorporados aleatoriamente, produzindo fragmentos de tamanhos diferentes. A mistura de fragmentos submetida a uma eletroforese para separao por tamanho. Os diferentes ddNTPs apresentam marcas passveis de reconhecimento. Em seqenciadores automticos, os diferentes ddNTPs so ligados a molculas fluorescentes denominadas cromforos, que quando estimuladas por raio laser, emitem diferentes comprimentos de ondas, sendo reconhecidas por programas apropriados e convertidas a determinada base nitrogenada (A, T, G ou C) (Figura 1). Com a automatizao da tcnica de seqenciamento e com o advento da Bioinformtica (disciplina que funde a biologia com a informtica), foi possvel automatizar a fase de gerao de seqncias, produzindo-as em larga escala e digitalizando-as para o computador. Programas apropriados, capazes de processar os dados e de montar e anotar os genomas, foram desenvolvidos para facilitar o acesso e a dispo17

Biotecnologia Cincia & Desenvolvimento - n 28- setembro/outubro 2002

Figura 3: O diagrama representa esquematicamente um exemplo de pipeline de montagem e de anotao de um genoma bacteriano. Diferentes laboratrios de seqenciamento enviam seqncias para a bioinformtica. Montagens so realizadas e um acompanhamento da evoluo dos contigs pode ser acompanhada via Web. Os contigs podem ser anotados, primeiro identificando-se as ORFs e depois comparando estas ORFs com bancos de seqncias, em geral pblicas e conhecidas, para determinao de funo. Anotadores humanos podem intervir na anotao automtica via Web
nibilizao de todas as informaes durante o processo. Etapas bsicas para seqenciamento de genomas bacterianos Para seqenciar completamente um genoma microbiano, primeiramente necessrio isolar o DNA do organismo em questo e elaborar bibliotecas de DNA genmico para servirem como molde para o posterior seqenciamento. O fato de genomas bacterianos apresentarem um percentual relativamente baixo de seqncias repetitivas (em torno de 3%), torna possvel fragmentar totalmente o DNA do organismo de interesse em pedaos de tamanhos variados, dispensando assim a necessidade de mapeamento fsico prvio. Esse tipo de abordagem denominado seqenciamento genmico completo por fragmentos aleatrios (Whole Genome Shotgun Sequencing). Essa estratgia empregada para seqenciar pedaos de DNA que so longos demais para o seqencia18

mento direto. A teoria shotgun est baseada na possibilidade de as seqncias aleatrias se sobreporem, formando seqncias contguas. O nmero de clones a serem seqenciados depende do tamanho do genoma em questo. Vrios modelos matemticos e estatsticos foram desenvolvidos e estima-se que uma cobertura de 10 vezes o tamanho do genoma consiga representar 99% da seqncia completa (Weber e Myers, 1997). Esses valores dependem de vrios fatores, como a qualidade da biblioteca, no que concerne ao tamanho e arbitrariedade dos insertos. Elaborao de bibliotecas de fragmentos aleatrios de DNA genmico Depois de isolado o DNA genmico, este submetido fragmentao por mtodos preferencialmente mecnicos, a saber: sonicao ou nebulizao. Esses mtodos so vantajosos em relao fragmentao por restri-

o enzimtica, por apresentarem um carter mais randmico. O produto obtido pela fragmentao deve ser separado por tamanho para evitar a clonagem de fragmentos pequenos, conforme esquema apresentado na Figura 2. Essa separao pode ser feita atravs de gel de agarose para extrao e purificao dos fragmentos de DNA no tamanho desejado, que podem variar de 1 a 4 Kbp (1 Kpb = 1.000 pares de bases), a depender da estratgia adotada. O produto da fragmentao deve ser submetido ao reparo das extremidades com utilizao de enzimas de modificao apropriadas, que tm o objetivo de tornar as extremidades abruptas e passveis de serem clonadas em vetores especiais (plasmdeos). Os fragmentos devem ser ligados enzimaticamente em um stio de ligao conhecido do plasmdeo. O produto de ligao ento introduzido em linhagens apropriadas de bactrias por um processo denominado de transformao. Nessa etapa, teremos uma mistura de bactrias transformadas (que receberam o plasmdeo)

Biotecnologia Cincia & Desenvolvimento - n 28- setembro/outubro 2002

e no transformadas (que no receberam o plasmdeo), que devem ser separadas. Esses plasmdeos carregam genes marcadores (normalmente genes que conferem resistncia a antibitico) que tm a funo de selecionar as bactrias transformantes. Assim, pelo crescimento em meio de cultura slido com antibitico, somente as bactrias transformantes sero capazes de crescer e formaro colnias. As colnias transformantes so ento inoculadas individualmente em meio de cultura lquido para sofrerem multiplicao. Cada transformante traz um fragmento aleatrio do DNA genmico do organismo em questo. Nessa etapa, os fragmentos podem ter sua seqncia decifrada por estarem clonados em plasmdeos de seqncias conhecidas. Assim, a cultura de colnia individualizada de transformante submetida extrao de plasmdeo e este submetido reao de seqenciamento (Figura 2). O nmero de seqncias a ser obtida depende da estratgia utilizada, da qualidade das bibliotecas e das prprias caractersticas do genoma. Essa fase chamada de seqenciamento em grande escala. Montagem em seqncias contguas As inovaes relativas automatizao do processo de seqenciamento permitiram a produo em larga escala de um nmero muito grande de seqncias de DNA. Na rea de Bioinformtica, os avanos tambm foram significativos no que tange disponibilizao de novos softwares adequados para a manipulao dessa vasta quantidade de dados genmicos. O pipeline de tratamento de dados de genomas de bactrias pode ser organizado como um sistema (Figura 3). As entradas mais importantes so as leituras (reads) do seqenciador de DNA. Concretamente, essas leituras so arquivos que contm informaes analgicas, que caracterizam as diferentes bases lidas pelo equipamento seqenciador. importante ressaltar que esses arquivos no contm as bases explicitamente e, sim, medidas analgicas. Ser necessrio um primeiro programa, fundamental no pipeline, para converter estas medidas em bases ACGT propriamente ditas. Um programa bastante utilizado o PHRED [PhredPhrap]. Esse programa pode ser encarado como um digitalizador de

leituras de DNA. Utiliza algoritmos complexos de tratamento de sinais e atribui o que chamamos de qualidade da base. A qualidade PHRED corresponde a um inteiro entre 0 e 99 e est associada probabilidade de erro de leitura. Uma base com qualidade 40 indica que o erro de 1 base em 104 (a qualidade o expoente multiplicado por 10). Empiricamente, considera-se uma base como aceitvel se tiver qualidade no mnimo 20 (1 base incorreta em 100). Digitalizadas as seqncias recebidas, elas so consideradas prontas para o tratamento por outros programas. O PHRED gera arquivos que, estes sim, contm explicitamente as bases lidas pelo seqenciador, junto com suas qualidades. O programa PHRED pode gerar seqncias em diferentes formatos, sendo o formato FASTA o mais utilizado. Como descrito acima nos mtodos inovadores de seqenciamento, um genoma no lido de uma vez s: ele , na verdade, estilhaado em milhares de fragmentos. Esses fragmentos so lidos por equipamentos de seqenciamento e digitalizados em computadores (por exemplo, usando PHRED). O segundo passo do pipeline consiste naturalmente em regerar a seqncia genmica completa, a partir dos fragmentos lidos. Esse processo conhecido como montagem do genoma, e depende de outros programas, como, por exemplo, PHRAP [PhredPhrap] e CAP3 [Cap3]. Alguns projetos desenvolvem seus prprios montadores domsticos, mais adaptados aos genomas seqenciados. O PHRAP, programa bastante utilizado em projetos genomas de bactrias, baseado em algoritmos eficientes de alinhamento de seqncias textuais. Esse programa, [1] l os fragmentos j digitalizados, [2] procura encontrar redundncias entre os mesmos e [3] aglutina os fragmentos, ancorados na parte comum que as liga, formando seqncias maiores chamadas de consensos. A montagem s eficaz graas ao mtodo aleatrio de clonagem, que garante, estatisticamente, que sempre haver redundncia entre os fragmentos. Isso garante tambm a reconstituio da seqncia genmica original. Sem a redundncia, o genoma no possvel de ser reconstitudo. Comumente, no se espera montar o genoma aps a chegada de uma quantidade suficiente de seqncias

para reconstituir o genoma integralmente. Em um pipeline tpico, so acionadas montagens regularmente, mesmo que nem todas as seqncias estejam disponveis. Os consensos gerados durante esse processo intermedirio so conhecidos por contigs. Idealmente, a montagem termina quando ela produz tantos contigs quanto replicons do genoma. Infelizmente, existem situaes que complicam bastante o processo da montagem. O mais evidente a existncia de repeties no genoma, que confundem o programa montador. Essa primeira fase do tratamento bioinformtico dos fragmentos de DNA bastante trabalhosa, porm pode ser tambm muito automatizada. Tanto para genomas de procariotos, como de eucariotos, esse processo est bem dominado e a pesquisa nessa rea se baseia em procurar novos algoritmos mais rpidos para montagem, mais confiveis (por exemplo, que tratem automaticamente o problema de repeties) e que manipulem nmeros cada vez maiores de fragmentos. Finalizao do seqenciamento completo O seqenciamento em grande escala termina quando o aumento do nmero de seqncias no contribui para o alongamento do contig. Essa montagem no finalizada resulta em contigs interrompidos por gaps, que so regies onde no se conhece a seqncia. Apesar do carter aleatrio das bibliotecas, h inevitavelmente a ocorrncia de gaps. Essa ocorrncia est associada com flutuaes de clonagem, presena de regies repetitivas longas, como operon ribossmico, seqncias com estruturas secundrias que dificultam o seqenciamento e trechos no DNA que so refratrios ao sistema de clonagem utilizado. Essa etapa no automatizada e deve-se, portanto, lanar mo de mtodos alternativos, normalmente trabalhosos, para finalizar o seqenciamento. Alm disso, cumpre ressaltar que, mesmo j codificada a seqncia final, importante reforar sua qualidade, em geral com seqenciamento orientado, permitindo gerar fragmentos no mais aleatrios. O genoma somente considerado fechado quando todas as bases apresentam valor de qualidade aceitvel, o qual depende do critrio de qualidade de cada projeto.
19

Biotecnologia Cincia & Desenvolvimento - n 28- setembro/outubro 2002

Anotao do genoma O prximo grande passo do pipeline bioinformtico (aps a primeira etapa de montagem), consiste ento em procurar dar significado biolgico ao genoma montado, em outras palavras, significa identificar as regies onde esto localizados os genes (regies codificadoras) e identificar a sua funo putativa. O princpio de base consiste em comparar a seqncia que se tem em mos com outras, cujas funes so previamente conhecidas: seqncias estruturalmente similares devem ter funes tambm similares. esse princpio que norteia a identificao biolgica funcional gnica in silico. Antes de comparar seqncias gnicas desconhecidas com outras de funo conhecida, necessrio identificar propriamente os genes do genoma. No caso de bactrias, esse processo menos complexo do que no caso de genomas de eucariotos, onde os genes so interrompidos, apresentando ntrons e exons. Existem vrios programas que realizam essa tarefa. Dois programas bastante utilizados so Glimmer (Delcher et al, 1999) e Genemark (Borodovsky e McIninch, 1993). Uma definio resumida do programa Glimmer a procura na seqncia genmica de grandes ORFs (Open Reading Frame regio de leitura aberta), ou seja, subseqncias iniciando por um cdon de incio e terminando com um cdon terminal. O programa Genemark mais preciso, pois considera tambm um modelo da regio intergnica (que diferente do modelo da distribuio estatstica das bases dentro de um gene). A identificao gnica um passo do pipeline que, em geral, envolve interferncia manual grande, pois os preditores de genes incorrem em erros, seja superestimando o nmero de ORFs ou subestimando esse valor. Com um conjunto final de ORFs putativas, cada seqncia desse conjunto ento alinhada, ou seja, comparada com outras seqncias de funo conhecida. Existem alguns bancos pblicos de protenas, como o banco do

Genbank [Genbank] e o Swiss Prot [Swiss Prot], que so comumente utilizados como base de comparao. Os programas usados nessa fase possuem a mesma funo dos programas de montagem: comparar seqncias. Porm, dado o crescente nmero de seqncias pblicas de protenas depositadas, os programas que comparam ORFs com bases de seqncias devem ser rpidos sem perder a preciso. de praxe vasculhar manualmente ORF a ORF, por meio de um programa de edio pela Web, que permite aos anotadores humanos modificarem as escolhas feitas pelo computador, seja alterando informaes estruturais, como funcionais. O servio considerado completo quando o genoma est decodificado e minimamente anotado, com seus genes identificados e conferidos. indiscutvel a contribuio das informaes obtidas em um projeto genoma. No caso da bactria Xylella fastidiosa, antes da elucidao da seqncia completa, muito pouco era conhecido do mecanismo molecular de patogenicidade da bactria. Hoje, alm dos genes relacionados com o metabolismo bsico, vrios genes relacionados com a patogenicidade foram identificados, alguns deles nunca anteriormente identificados em patgenos de plantas, trazendo novas inferncias ao processo de patogenicidade bactria-planta (Simpson et al. 2000). Concluso A vasta quantidade de dados gerados por projetos na rea genmica est ocasionando uma verdadeira revoluo, com grande potencial para o desenvolvimento da biologia bsica e aplicada. A comunidade cientfica est concentrada principalmente em decifrar a informao gentica contida na molcula de DNA, com o objetivo de compreender a fisiologia dessas diferentes formas de vida, criando condies para interferir nos processos biolgicos em prol da agricultura e da medicina.

Agradecimentos Os autores fazem um agradecimento especial a Andrew Simpson (Instituto Ludwig de Pesquisa sobre o Cncer), que foi um dos responsveis pela introduo da genmica no Brasil, e tambm a Ricardo Brentani (Instituto Ludwig de Pesquisa sobre o Cncer), a Joo Carlos Setubal (Laboratrio de Bioinformtica/ Instituto de Computao da Unicamp) e a Joo Meidanis (Laboratrio de Bioinformtica/Instituto de Computao da Unicamp). Agradecem tambm a leitura crtica de Anamaria Aranha Camargo e tambm a Andr Luiz Vettore de Oliveira (Instituto Ludwig de Pesquisa sobre o Cncer) e a Felipe Rodrigues da Silva (Cenargen - Embrapa) pela elaborao da Figura 1 desse artigo. Referncias Borodovsky, M., McIninch, J. D. (1993). GeneMark: parallel gene recognition for both DNA strands. Comp. Chem. 17:123-133. da Silva, A . C. R. et al. (2002). Comparison of the genomes of two Xanthomonas pathogens with differing host specificities. Nature 417 (6887), 459-463. Delcher, A . L. e al. (1999). Improved microbial gene identification with Glimmer. Nucleic Acids Research 27 (23):4636-4641 Duran, N., Rettori, D., Menck, C. F. M. (2001). Quem a Chromobacterium violaceum? Biotecnologia Cincia e Desenvolvimento 20, 38-43. Fleischmann, R. D. et al. (1995). Wholegenome random sequencing and assembly of Haemophilus influenzae Rd. Science 269 (5223), 496512. Fraser, C. M., Dando, M. R. (2001). Genomics and future biological weapons: the need for preventive action by the biomedical community. Nature Genetics 29: 253256. Sanger F, Nicklen S, Coulson AR. (1977). DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 74(12):5463-7. Simpson, A. J. G., et al. (2000). The genome sequence of the plant pathogen Xylella fastidiosa. Nature 406 (6792):151-157. Weber, J. L., Myers, E. W. (1997). Human whole-genome shotgun sequencing. Genome Research 7:401409.

Endereos eletrnicos CAP3. http://genome.cs.mtu.edu/sas.html Genbank. http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html PhredPhrap. http: //www.phrap.org SwissProt. http://www.expasy.ch/sprot/
20 Biotecnologia Cincia & Desenvolvimento - n 28- setembro/outubro 2002

Você também pode gostar