Você está na página 1de 10

Pesquisa Pesquisa

Anlise Comparativa de Genomas Procariticos


Ilustraes cedidas pelos autores

POR QUE, COMO E O QUE COMPARAR?

iniciativa pioneira do Departamento de Energia NorteAmericano (DOE) de obter uma seqncia genmica humana de referncia que pudesse atender melhor os seus propsitos de compreender os riscos potenciais para a sade e para o meio ambiente decorrentes da produo e do uso de novas fontes de energia e novas tecnologias, culminou no lanamento do Projeto Genoma Humano, em 1990; mais tarde, os recursos tecnolgicos gerados por este projeto estimularam o desenvolvimento de muitos outros projetos genoma, tanto por setores pblicos quanto por

setores privados (HGP 2001) (Figura 1). Desde a dcada de 1990, portanto, os esforos internacionais no sentido de obter seqncias genmicas completas levaram determinao de todo o cdigo gentico de mais de 700 organismos, entre estes, procariotos, leveduras, protozorios, plantas, invertebrados e vertebrados, incluindo o prprio Homo sapiens; atualmente, aproximadamente 3.000 outros projetos genoma esto em andamento, representando interesses mdicos, comerciais, ambientais e industriais, ou contemplando organismosmodelos importantes para o desenvol-

Marcos Catanho, MSc Doutorando em Biologia Celular e Molecular Laboratrio de Genmica Funcional e Bioinformtica Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro RJ mcatanho@fiocruz.br Wim Degrave, PhD Pesquisador Titular Laboratrio de Genmica Funcional e Bioinformtica Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro - RJ wdegrave@fiocruz.br Antonio Baslio de Miranda, PhD Pesquisador Associado Laboratrio de Genmica Funcional e Bioinformtica Instituto Oswaldo Cruz - Fiocruz Rio de Janeiro RJ antonio@fiocruz.br
http://www.dbbm.fiocruz.br/labwim/ bioinfoteam/
20 Biotecnologia Cincia & Desenvolvimento - n 37

Figura 1. Evoluo do nmero (cumulativo) de genomas eucariticos e procariticos completamente seqenciados e depositados em bancos de dados pblicos desde 1995 at 2007 (grfico de barras) e a distribuio dos projetos genoma segundo suas reas de interesse (grfico de pizza): biomedicina, evoluo, meio ambiente, biotecnologia e agricultura. Observe que h uma ntida preferncia pelo seqenciamento de genomas bacterianos (de menor tamanho em relao aos genomas eucariticos e, portanto, mais fceis de serem analisados) e genomas com importncia biomdica (42%) ou biotecnolgica (28%). Fonte: Genomes Online Database (GOLD 2008)

vimento de pesquisas cientficas (GOLD 2008) (Figura 1). Ao mesmo tempo, a obteno e anlise de seqncias genmicas completas de inmeros organismos (genmica) (Carraro & Kitajima 2002), juntamente com dados de expresso gnica e protica de clulas, tecidos e rgos inteiros, gerados por outras tecnologias de alto desempenho como a transcriptmica (Passos et al 2000) e a protemica (Sousa et al 1999; Ciero & Bellato 2002), aliados ao vertiginoso avano da computao e desenvolvimento de algoritmos mais eficientes, por sua vez resultantes do surgimento e consolidao de cincias como a Computao, a Bioinformtica e a Biologia Computacional nas ltimas dcadas (Binneck 2004; Prosdocimi et al 2002), tem permitido comunidade cientfica o uso de abordagens holsticas e ao mesmo tempo inovadoras no estudo da estrutura, organizao e evoluo de genomas (Abby & Daubin 2007), no estudo da expresso diferencial de genes e protenas (Patterson & Aebersold 2003), na anlise da estrutura tridimensional de protenas (Ginalski 2006), no processo de reconstruo metablica e na predio e classificao funcional de genes (Galperin & Koonin 2000; Stein 2001; Gabaldon & Huynen 2004; Francke et al 2005; Lee et al 2007; Skrabanek et al 2008). Dentre estas abordagens destaca-se a anlise comparativa de genomas (tambm conhecida como genmica comparativa ou comparao de genomas), que consiste na anlise e comparao do material gentico de diferentes espcies ou cepas, com o propsito de estudar a estrutura, organizao e evoluo dos genomas (e das espcies correspondentes) e tambm as funes dos genes e regies no codificantes nestes genomas. Nesta reviso, apresentamos um resumo das diferentes abordagens utilizadas na anlise comparativa de genomas, ressaltando, atravs de exemplos, sua importncia e algumas contribuies para o desenvolvimento da Biologia. Enfocamos nossa reviso em um grupo particular de organismos unicelulares: os procariotos. Pertencentes aos reinos Archaea e Bacteria, estes seres representam quase a totalidade dos genomas seqenciados at o momento (Figura 1) e dos projetos genoma em andamento (GOLD 2008); alm disso, estas espcies renem caractersticas fascinantes, tais como uma enorme (e insuspeitada) diversidade gentica (at mesmo entre espcies e populaes), a capacidade de sobreviver e

prosperar em virtualmente todos os ecossistemas terrestres (refletida na incrvel diversidade morfolgica, fisiolgica e metablica destes microrganismos), mantendo populaes de tamanho muito variado (desde muito pequeno at incrivelmente grande), e a capacidade de adquirirem e usarem freqentemente material gentico de organismos muito distantes (Coenye et al 2005; Binnewies et al 2006; Abby & Daubin 2007), oferecendo, por tudo isto, um campo frtil para o desenvolvimento de pesquisas em diferentes reas como a microbiologia, a gentica, a bioqumica, a evoluo e a taxonomia destes microrganismos. Por que comparar? Seqncias genmicas completas constituem uma fonte de dados singular porque, em princpio, elas representam tudo o que necessrio para criar um organismo, juntamente com fatores epigenticos e sua interao com os mesmos (Figura 2). Mas o que fazer com toda esta informao? Acredita-se que o genoma de um nico organismo, visto isoladamente, fora de seu contexto evolutivo, no capaz de nos revelar muito sobre si mesmo e que para tanto os genomas de diferentes espcies ou cepas devem ser estudados comparati-

vamente (Clark 1999). De fato, anlises comparativas entre as seqncias genmicas de diferentes microrganismos tm contribudo enormemente para a elucidao de aspectos fundamentais da gentica, da bioqumica e da evoluo de inmeras espcies (Galperin & Koonin 1999; Kondrashov 1999; Fraser et al 2000; Galperin & Koonin 2000; Koonin et al 2000; Wei et al 2002; Huynen et al 2005; Abby & Daubin 2007). Por exemplo, desde o seqenciamento dos primeiros genomas bacterianos em 1995, anlises comparativas de genomas procariticos tm nos revelado cada vez mais a natureza complexa da estrutura e organizao destes genomas e a enorme diversidade gentica entre estes organismos, muito acima daquela esperada, mesmo entre isolados de uma mesma espcie, levando a questionamentos importantes sobre os mecanismos pelos quais estes microrganismos evoluem e como devem ser classificados taxonomicamente (Coenye et al 2005; Binnewies et al 2006; Abby & Daubin 2007). As foras que moldam a estrutura, composio e organizao dos genomas destes microrganismos como, por exemplo, a eficincia nos processos de replicao, transcrio e regulao da expresso gnica - e aquelas responsveis pela gerao de variabilidade e da capacidade de adaptao destas espcies aos mais diversos nichos ecolgicos em nosso planeta tais como eventos de duplicao gnica, transferncia lateral de genes, desfuncionalizao de genes (formao de pseudogenes), eliminao (deleo) de genes e rearranjos cromossmicos , tm sido pouco a pouco desvendadas e intensamente estudadas (Ochman & Davalos 2006; Abby & Daubin 2007). A reconstruo da histria evolutiva dos seres vivos - baseada em mtodos matemticos para inferir o passado a partir de caractersticas presentes nas espcies contemporneas - tambm tem se beneficiado com o seqenciamento e a anlise comparativa de um nmero cada vez maior de genomas, envolvendo os trs domnios da vida - Archaea, Bacteria e Eukarya. Por exemplo, novas abordagens para anlises filogenticas, baseadas na comparao e alinhamento de seqncias primrias de mltiplos genes de inmeras espcies ou, ainda, na comparao de caractersticas associadas aos genomas inteiros de dezenas ou centenas de organismos, como o repertrio completo de genes ou a ordem (localizao) dos mesmos nos genomas, tm sido desenvolvidas (Delsuc et al 2005; Dutilh et al 2007), assim como novos mtodos para calcular a distncia entre os genomas

Figura 2. Representao esquemtica do processamento da informao gentica e epigentica (adaptado de Strohman 1997)

Biotecnologia Cincia & Desenvolvimento - n 37

21

de distintas espcies tm sido propostos (Otu & Sayood 2003; Henz et al 2005; Kunin et al 2005a e referncias contidas neste trabalho; Kunin et al 2005b; Tekaia et al 2005), resultando em melhorias na resoluo da rvore da vida e na superao de problemas antigos e comuns aos mtodos tradicionais de anlise filogentica, como por exemplo, a escolha de marcadores evolutivos apropriados, a saturao de determinadas posies nos cdons e desvios nas anlises provocados por estes fatores (Delsuc et al 2005). Outro exemplo importante refere-se ao estudo da variabilidade metablica e da conservao de funes enzimticas nas diversas vias bioqumicas entre os organismos. Comparaes entre as vias bioqumicas preditas a partir da anlise de genomas completamente seqenciados tm revelado a existncia de vias incompletas ou mesmo ausentes em vrias espcies analisadas (Cordwell 1999; Galperin & Koonin 1999;

Huynen et al 1999; Morett et al 2003; Peregrin-Alvarez et al 2003). Em algumas situaes, isto poderia representar o resultado de adaptaes a diferentes nichos ecolgicos, como, por exemplo, em bactrias estritamente simbiontes, as quais codificam um nmero menor de enzimas e vias metablicas em comparao com seus parentes de vida livre, uma vez que o hospedeiro oferece um ambiente constante e rico em metablitos (nutrientes e compostos qumicos intermedirios) essenciais ao desenvolvimento destes microrganismos (Galperin & Koonin 1999; Huynen et al 1999; Ochman & Moran 2001; Moran 2002; Moya et al 2008). Em muitos casos, entretanto, as enzimas desaparecidas foram substitudas por protenas funcionalmente equivalentes, ou seja, capazes de catalisar as mesmas reaes, mas exibindo virtualmente nenhuma similaridade ao nvel de suas seqncias primrias (de aminocidos) e tampouco ao nvel de suas estruturas tercirias (tridimensionais) (Galperin et

al 1998; Huynen et al 1999; Morett et al 2003). Estas formas alternativas, conhecidas como protenas anlogas (Fitch 1970, 2000) (Figura 3), originam-se a partir de processos evolutivos independentes, convergindo para uma mesma funo biolgica (neste caso para uma mesma atividade enzimtica), e podem estar associadas a diferentes linhagens filogenticas e/ou possuir distintos mecanismos de catlise (Galperin et al 1998). Alguns trabalhos sugerem que a frao de atividades enzimticas nas quais ocorreram mltiplos eventos de origem independente pode ser substancial (Morett et al 2003), somando-se a outras evidncias, tambm oriundas de anlises comparativas de genomas, que apontam a importncia (muito maior do que se supunha) do papel desempenhado pelo que se pode chamar de homologia funcional na evoluo dos seres vivos; um bom exemplo a indicao de que o nmero total de genes homlogos compartilhados entre as espcies atualmente conhecidas (genes

Figura 3. Homologia versus analogia. O esquema representa os processos evolutivos que levam formao de genes homlogos (genes A1, A2, B1 e B2 nas espcies X1 e X2; genes C1 e C2 nas espcies Y1 e Y2) e anlogos (B2 e C1), atravs da evoluo independente de dois genes hipotticos pertencentes a duas linhagens distintas (adaptado de Jensen 2001). Na linhagem X a evoluo do gene ancestral hipottico ocorreu atravs de dois eventos seqenciais, resultando na formao de genes divergentes, porm relacionados a um ancestral evolutivo comum (homlogos): primeiro atravs de uma duplicao gnica (descendncia horizontal), gerando os genes homlogos A e B na prpria espcie ancestral X0; em seguida, atravs de um evento de especiao (descendncia vertical), que deu origem s espcies X1 e X2 e aos pares de genes homlogos A1 e A2 (descendentes do gene A) e B1 e B2 (descendentes do gene B) nestas espcies. Na linhagem Y, o gene ancestral hipottico pertencente espcie ancestral Y0 evoluiu atravs de um nico evento de especiao, que originou as espcies Y1 e Y2 e o par de genes homlogos C1 e C2 (descendentes diretos do gene ancestral desta linhagem) nestas espcies. Os pares de genes homlogos A e B (na espcie ancestral X0), assim como os pares A1 e B1 (na espcie X1) e A2 e B2 (na espcie X2) so denominados parlogos, uma vez que o evento responsvel pela origem de todos eles, a partir do gene ancestral comum mais prximo entre os mesmos, foi uma duplicao gnica (Fitch 1970, 2000); j os pares de genes A1 e A2 (entre as espcies X1 e X2), A2 e B2 (tambm entre as espcies X1 e X2) e C1 e C2 (entre as espcies Y1 e Y2) so denominados ortlogos, uma vez que estes pares de genes homlogos foram originados, a partir de seus respectivos genes ancestrais comuns mais prximos, atravs de um evento de especiao (Fitch 1970, 2000). Os genes B2 e C1, pertencentes s espcies X2 e Y1, respectivamente, so denominados anlogos, isto , genes originados a partir de genes ancestrais no relacionados entre si (pertencentes a linhagens distintas) que, entretanto, convergiram para uma mesma funo biolgica (Fitch 1970, 2000)

22

Biotecnologia Cincia & Desenvolvimento - n 37

ubquos) inferior a 100, envolvendo principalmente os genes responsveis pelos processos de traduo (na grande maioria), transcrio e replicao/ reparo do DNA (Koonin 2003). Este nmero incrivelmente pequeno de genes presumidamente compartilhados entre os diversos organismos sugere que inmeras funes essenciais (e tambm no-essenciais) - que obviamente variam de acordo com as condies nas quais uma dada espcie ou populao tem de sobreviver (estilo de vida e nicho ecolgico) - so desempenhadas por genes que mantm entre si relaes de parentesco distante (parlogos originados por duplicaes ancestrais ou que evoluram muito rapidamente, muitas vezes divergindo ao ponto de no poderem mais ser reconhecidos como tais) ou que no dividem ancestralidade alguma (anlogos) (Koonin et al 1996), ou ainda por genes taxonomicamente restritos, isto , exclusivos de uma espcie, famlia ou linhagem em particular (genes nicos). De um ponto de vista aplicado, tecnologias de alto desempenho (genmica, transcriptmica e protemica) possibilitam que pesquisadores, atravs de anlises e minerao criteriosas de dados, aumentem no somente nosso conhecimento sobre a biologia dos seres vivos, mas tambm sejam capazes de desenvolver novos mtodos de diagnstico, vacinas mais eficazes, novas drogas, novos marcadores prognsticos e uma variedade de aplicaes biotecnolgicas. No que se refere aos microrganismos patognicos, por exemplo, e s micobactrias em especial, vrias aplicaes potenciais da anlise comparativa de genomas tm sido reportadas, visando sobretudo preveno (atravs do desenvolvimento de vacinas mais eficazes), o tratamento (pelo desenvolvimento de novas drogas) e o diagnstico (atravs da criao de mtodos mais rpidos, sensveis e especficos) da tuberculose e outras doenas causadas por micobactrias. Algumas dessas aplicaes incluem: a identificao de genes nicos de uma espcie em particular, a identificao de fatores de virulncia e a reconstruo metablica (Gordon et al 2002); a caracterizao de patgenos, a identificao de novos alvos para diagnstico e para procedimentos teraputicos (Fitzgerald & Musser 2001); a investigao sobre a origem molecular da patognese, do espectro de hospedeiros e das diferenas fenotpicas entre isolados clnicos e populaes naturais de patgenos (Behr et al 1999; Brosch et al 2001; Cole 2002; Kato-Maeda et al 2001) e a investigao dos fundamentos genticos da viruln-

cia e da resistncia a drogas de micobactrias causadoras de tuberculose (Randhawa & Bishai 2002). Como comparar? A anlise comparativa de genomas consiste na anlise e comparao entre todo ou grande parte do material gentico de diferentes espcies ou cepas. Por tratar-se de uma abordagem holstica, em larga escala, exige mtodos computacionais para sua realizao. Apesar de ser uma abordagem relativamente recente, tendo incio com o seqenciamento dos primeiros genomas na dcada de 1990, suas ferramentas mais importantes tm origem nas tcnicas clssicas de anlise computacional de seqncias: (i) algoritmos de alinhamento global e local de pares ou de mltiplas seqncias, (ii) mtodos de anlise filogentica e (iii) as implementaes destes mtodos e algoritmos (Needleman & Wunsch 1970; Smith & Waterman 1981; Felsenstein 1981, 1989; Lipman & Pearson 1985; Pearson & Lipman 1988; Feng & Doolittle 1987; Altschul et al 1990, 1997; Thompson et al 1994). De fato, ela se beneficia no somente de ferramentas desenvolvidas no passado, mas tambm da criao de novas ferramentas e do aperfeioamento de ferramentas j existentes, ambos estimulados pela imensa, diversificada e complexa quantidade de dados produzida com os projetos de seqenciamento em larga escala. Sendo os genomas basicamente longas seqncias de DNA, poder-se-ia analislos alinhando-os como se fossem seqncias comuns, utilizando um dos algoritmos de anlise de seqncias citados anteriormente. No entanto, isto s pode ser feito com genomas de espcies ou cepas muito prximas, uma vez que mudanas na organizao do genoma (inseres, delees, inverses, rearranjos, trocas e duplicaes) ocorrem com uma taxa muito elevada. Alm disto, por tratar-se de seqncias de tamanho extremo, torna-se computacionalmente invivel a anlise de mais de um par de genomas de uma s vez, mesmo com o uso de algoritmos e programas eficazes, especialmente desenvolvidos para esta finalidade (Morgenstern et al 1998, 1999, 2002; Jareborg et al 1999; Delcher et al 1999, 2002; Kent & Zahler 2000; Batzoglou et al 2000; Ma et al 2002; Bray et al 2003, 2004; Schwartz et al 2003; Brudno et al 2003a, 2003b; Kurtz et al 2004) (para uma reviso abrangente sobre este assunto, consulte Blanchette 2007). Portanto, na maioria das vezes as anlises compara-

tivas entre genomas so feitas em um nvel de abordagem mais modular, tomando-se as partes que compem tais seqncias, como por exemplo, o conjunto completo de genes codificados pelas espcies em estudo. Entre os mtodos mais comumente empregados nestas anlises est a busca por similaridades entre seqncias. A etapa crucial deste tipo de anlise determinar se as seqncias comparadas so ou no homlogas, ou seja, se descendem ou no de uma seqncia ancestral comum, estabelecendo-se equivalncia entre as partes comparadas. O resultado obtido permite, entre outras coisas, a predio de funo, j que presumido que seqncias homlogas tendem a ter funes similares e tambm determinar quais os genes correspondentes (ortlogos) entre pares ou grupos de genomas analisados (Rigden & Mello 2002; Lee et al 2007). Esta tarefa nada trivial feita comparando-se uma ou mais seqncias de entrada (query sequences), com outras inmeras seqncias depositadas em um banco de dados (subject sequences), atravs do alinhamento consecutivo de cada seqncia de entrada com cada seqncia depositada no banco, com a utilizao de um algoritmo de alinhamento local (Smith & Waterman 1981; Pearson & Lipman 1988; Altschul et al 1997). Para cada alinhamento, calcula-se o nmero de pontos obtidos (score), com base em uma matriz de substituio (PAM ou BLOSUM normalmente) e em valores arbitrados de penalidade para a abertura e extenso de espaos nas seqncias alinhadas (gap opening/ extension penalties), e o nmero de alinhamentos esperados ao acaso com pontuao igual ou superior ao do alinhamento em questo (Evalue), a partir da pontuao normalizada (bitscore) e do tamanho e composio do banco de dados. A homologia inferida com base nos valores calculados dos diferentes parmetros do alinhamento, alguns deles j mencionados: pontuao, pontuao normalizada, nmero de alinhamentos esperados ao acaso com pontuao igual ou superior ao do alinhamento em questo, percentual de identidade, percentual da extenso de cada seqncia no par alinhado que contribui para o alinhamento, diferena de tamanho entre as seqncias alinhadas etc. A existncia de domnios - mdulos que constituem unidades distintas do ponto de vista evolutivo, funcional e
23

Biotecnologia Cincia & Desenvolvimento - n 37

estrutural - em protenas um fator complicador nestas anlises, que deve ser tratado com ateno. Atualmente, inmeros bancos de dados e ferramentas computacionais para anlise comparativa de genomas procariticos esto disponveis atravs da internet como servios on-line e/ou programas independentes para uso local, abrangendo uma variedade de propsitos e funcionalidades (Catanho et al 2007). A Tabela 1 apresenta um resu-

mo de tais recursos computacionais. O que comparar? Anlises comparativas de genomas podem envolver diferentes tipos de abordagem, oferecendo mltiplas perspectivas acerca dos organismos estudados (revisto por Wei et al 2002). Entre as anlises capazes de contribuir significativamente para a compreenso de problemas biolgicos, ressaltando similaridades e diferenas importantes entre os

genomas e organismos comparados, destacam-se: (i) comparaes envolvendo a estrutura genmica global, (ii) comparaes entre regies codificantes identificadas em diversos genomas e (iii) comparaes envolvendo regies no codificantes de diferentes genomas (Figura 4). Comparaes envolvendo a estrutura genmica global Pesquisas envolvendo a organizao

Tabela 1. Bancos de dados e ferramentas computacionais para anlise comparativa de genomas procariticos

Fonte: Catanho et al 2007.


24 Biotecnologia Cincia & Desenvolvimento - n 37

(tais como genes, operons, grupos [clusters] gnicos, elementos de insero, repeties etc.), determinando, por exemplo, a distribuio assimtrica dos genes entre as fitas de DNA (chamadas leading e lagging) e em relao aos pontos de origem e trmino da replicao, a diferena de composio de bases entre as fitas leading e lagging e a formao de gradientes ao longo da cadeia de DNA, representados por desvios na composio de bases e nas taxas mutacionais nas proximidades do ponto de trmino da replicao (revisto por Rocha 2004a). Comparaes entre regies codificantes Outra abordagem comumente empregada para comparar os genomas de diferentes organismos procariticos considera estes seres (de forma alegrica) como sendo sacos de genes, orientando as anlises somente para o contedo codificante de seus genomas: genes e seus produtos (protenas especificamente). As possibilidades oferecidas por este tipo de abordagem so inmeras, incluindo a aquisio de informaes sobre a organizao e evoluo destes genomas, a identificao de caractersticas nicas nos mesmos, aplicao direta em processos de reconstruo metablica e em processos de predio e classificao funcional de genes (Galperin & Koonin 2000; Stein 2001; Gabaldon & Huynen 2004; Francke et al 2005; Lee et al 2007; Abby & Daubin 2007; Skrabanek et al 2008). Tais estudos abrangem normalmente (i) a identificao de regies codificantes, (ii) a comparao dos contedos gnico e protico, (iii) a identificao/anlise da conservao de famlias de genes ortlogos e parlogos entre os genomas comparados, (iv) a anlise da conservao de grupos gnicos e da conservao da ordem (localizao) dos genes entre as diferentes espcies estudadas, (v) a identificao/anlise de eventos de fuso/fisso gnica e da ocorrncia de ligao funcional entre genes nas espcies analisadas. Recentemente, anlises deste tipo levaram a uma das mais importantes descobertas da era genmica. Atravs de comparaes entre o repertrio de genes codificados pelos genomas de mltiplos isolados patognicos de bactrias da espcie Streptococcus agalactiae (principal causa de infeco neonatal em humanos), Tettelin e colaboradores (2005) demonstraram que esta espcie pode ser descrita por um pan-genoma, constitudo por um conjunto de genes compartilhados por todos os isolados (genoma central) e por um segundo conjunto de
25

Figura 4. Anlise comparativa de genomas. O esquema representa genericamente os trs nveis de abordagem da genmica comparativa de procariotos (e tambm de eucariotos) e algumas anlises comumente realizadas. Uma vez que seqncias genmicas completas so obtidas atravs do seqenciamento em larga escala dos genomas de diferentes espcies, anlises comparativas envolvendo (i) a estrutura genmica, (ii) as regies codificantes e (iii) as regies no codificantes entre estes genomas podem ser realizadas, oferecendo mltiplas perspectivas acerca dos organismos estudados. Neste painel, segmentos genmicos sintnicos entre os genomas hipotticos A, B e C so representados por barras horizontais de cores idnticas (Estrutura genmica). De maneira similar, regies codificantes ortlogas (entre diferentes genomas) e parlogas (dentro de um mesmo genoma) so representadas por crculos de cores idnticas (Regies codificantes). A presena de elementos regulatrios ou de pseudogenes, dentro de regies no codificantes, conservados entre os genomas hipotticos A, B e C so representadas por crculos pontilhados (Regies no codificantes)

cromossmica de procariotos receberam pouca ateno no passado em relao a estudos similares em eucariotos. Este quadro vem se modificando, graas aos resultados obtidos com o seqenciamento em larga escala dos genomas de inmeros representantes destes seres vivos (Rocha 2004a). Comparaes envolvendo a estrutura global de genomas procariticos completamente seqenciados possibilitam a obteno de informaes sobre a organizao e evoluo destes genomas e tambm a identificao de caractersticas nicas nos mesmos, permitindo revelar e compreender as foras atuantes nestes processos, muitas vezes relacionadas a atividades celulares fundamentais como a expresso gnica coordenada, a replicao cromossmica e a diviso celular (Rocha 2004b). Estas pesquisas incluem tipicamente (i) a descri-

o de caractersticas estruturais do DNA (como por exemplo, tamanho do genoma, contedo GC [guanina+citosina] global, variaes do contedo GC ao longo do genoma, freqncias de mono- e oligonucleotdeos, desvios na utilizao de cdons e de aminocidos, entre outros) (ii) a anlise do contedo e distribuio de repeties e outras regies de baixa complexidade, (iii) a identificao de regies sintnicas conservadas e de eventos de rearranjo genmico e (iv) a anlise de regies limtrofes entre regies sintnicas vizinhas (breakpoints). Atravs de anlises como estas foi possvel, por exemplo, demonstrar que o processo de replicao cromossmica um dos principais responsveis pela organizao e pela inter-relao entre muitos dos elementos que constituem a organizao genmica em procariotos

Biotecnologia Cincia & Desenvolvimento - n 37

genes formado por genes parcialmente compartilhados e genes cepa-especficos (genoma dispensvel), ou seja, constitudo pela soma dos genes que representam a essncia (centrais) e a diversidade (dispensveis) desta espcie. Resultados similares foram obtidos analisando-se isolados provenientes de outras espcies (Streptococcus pyogenes, Bacillus anthracis, Escherichia coli e Haloquadratum walsbyi) e modelos matemticos baseados nos dados obtidos para os diferentes grupos analisados mostraram que, enquanto para algumas espcies (Bacillus anthracis) o pan-genoma pode ser completamente descrito com o seqenciamento dos genomas de apenas alguns poucos representantes, em outras espcies (Streptococcus pyogenes, Escherichia coli e Haloquadratum walsbyi), genes novos continuaro a emergir mesmo aps o seqenciamento dos genomas de centenas ou milhares de cepas, sugerindo que o pool de genes disponveis no universo microbiano muito maior do que se imaginava (Tettelin et al 2005; Medini et al 2005; Chen et al 2006; Legault et al 2006). Embora o significado do pangenoma ainda no seja bem compreendido (uma possibilidade seria a de que ele estaria envolvido na adaptao a diferentes nichos ecolgicos), estes estudos demonstram claramente a necessidade de se analisar genomas de mltiplos isolados, e no apenas um ou dois representantes de cada espcie, para que se tenha uma compreenso global da complexidade das espcies bacterianas. Comparaes envolvendo regies no codificantes O processo de regulao transcricional um importante mecanismo de adaptao em procariotos, no qual protenas regulatrias e sinais regulatrios localizados nas regies extra-gnicas so elementos-chaves envolvidos. Neste sentido, comparaes entre regies no codificantes de genomas de diferentes espcies procariticas tm auxiliado grandemente a identificao e caracterizao de segmentos genmicos com papis regulatrios (Pareja et al 2006), contribuindo para a elucidao dos circuitos genticos de regulao transcricional nestes organismos. Estas abordagens baseiam-se na suposio de que regies funcionalmente importantes encontram-se sob presso seletiva e, portanto, tendem a evoluir com uma taxa menor do que regies sem nenhum papel funcional (Wei et al 2002). Por outro lado, comparaes entre protenas j caracterizadas e regies no
26

codificantes em inmeras espcies de procariotos tm sido usadas na identificao e caracterizao de cpias obsoletas de genes ou, em outras palavras, fsseis moleculares chamados pseudogenes (Liu et al 2004; Lerat & Ochman 2005). Tais seqncias podem ser reconhecidas por apresentarem rupturas em seus marcos de leitura provocadas por mudanas de fase e por cdons de parada prematuros (Lerat & Ochman 2005). Por possurem um genoma muito compacto, rico em genes e contendo muito pouco DNA no codificante, acreditava-se que a formao de pseudogenes em microrganismos procariticos era mnima (com algumas raras excees bem conhecidas). Entretanto, atualmente, pseudogenes so reconhecidos como um atributo normal de genomas procariticos, encontrados em virtualmente todos os genomas procariticos j analisados, particularmente em bactrias patognicas que surgiram recentemente, nas quais a presena destes fsseis moleculares ocorre em grande nmero (Lerat & Ochman 2005; Ochman & Davalos 2006). Estudos envolvendo a identificao e a caracterizao da origem e funo primitiva de genes extintos so muito importantes para a compreenso da evoluo do proteoma e da natureza e dinmica dos genomas procariticos (Ochman & Davalos 2006). Concluses e perspectivas para o futuro A anlise comparativa de genomas possui variadas aplicaes em diferentes campos do conhecimento, desde a anlise da estrutura, organizao e evoluo dos genomas at o desenvolvimento de mtodos mais eficientes de preveno, tratamento e diagnstico de doenas parasitrias, por exemplo. Alm disso, por envolver anlises em larga escala, exigindo, portanto, mtodos computacionais para sua realizao, os desafios impostos pela necessidade de se comparar grandes, diversificados e complexos volumes de dados, oriundos dos inmeros projetos genoma, tm estimulado o desenvolvimento de novos mtodos, algoritmos e ferramentas computacionais e tambm o aprimoramento de tcnicas j existentes. Sem dvida, a anlise comparativa de genomas constitui um campo frtil para pesquisas envolvendo diversos aspectos da biologia dos organismos procariticos (e tambm eucariticos), como a gentica, a bioqumica, a evoluo e, ainda, os mecanismos moleculares da patognese, do espectro de hospedeiros e das diferenas

fenotpicas entre alguns de seus representantes. Neste sentido, diferentes abordagens tm sido desenvolvidas e empregadas na comparao de seqncias genmicas, oferecendo assim mltiplas perspectivas acerca dos organismos estudados. Com o constante aprimoramento dos mtodos de seqenciamento em larga escala ocorrido nos ltimos anos, aumentando substancialmente a rapidez e a eficincia com que genomas inteiros so seqenciados (Shendure et al 2008), e a recente possibilidade de se obter seqncias genmicas (completas ou parciais) de comunidades inteiras de microrganismos diretamente de amostras ambientais (metagenmica), novas e importantes descobertas cientficas e avanos tecnolgicos podem ser antecipados para o futuro. Referncias bibliogrficas Abby S, Daubin V. Comparative genomics and the evolution of prokaryotes. Trends Microbiol 2007 March;15(3):135-141. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol 1990 Oct 5;215(3):403-10. Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997 Sep 1;25(17):3389-402. Batzoglou S, Pachter L, Mesirov JP, Berger B, Lander ES. Human and mouse gene structure: comparative analysis and application to exon prediction. Genome Res 2000 Jul;10(7):950-8. Behr MA, Wilson MA, Gill WP, Salamon H, Schoolnik GK, Rane S, et al. Comparative genomics of BCG vaccines by wholegenome DNA microarray. Science 1999 May 28;284(5419):1520-3. Binneck E. As micas: integrando a bioinformao - O papel da bioinformtica em expanso. Biotecnol Cinc Des 2004 Janeiro/Junho;32:28-37. Binnewies TT, Motro Y, Hallin PF, Lund O, Dunn D, La T, Hampson DJ, Bellgard M, Wassenaar TM, Ussery DW. Ten years of bacterial genome sequencing: comparativegenomics-based discoveries. Funct Integr Genomics 2006 July;6(3):165-185. Blanchette M. Computation and Analysis of Genomic Multi-Sequence Alignments. Annual Review of Genomics and Human Genetics 2007 September 24;8(1):193-213. Bray N, Dubchak I, Pachter L. AVID: A global alignment program. Genome Res 2003 Jan;13(1):97-102. Bray N, Pachter L. MAVID: constrained ancestral alignment of multiple sequences. Genome Res 2004 Apr;14(4):693-9. Brosch R, Pym AS, Gordon SV, Cole ST. The

Biotecnologia Cincia & Desenvolvimento - n 37

evolution of mycobacterial pathogenicity: clues from comparative genomics. Trends Microbiol 2001 Sep;9(9):452-8. Brudno M, Chapman M, Gottgens B, Batzoglou S, Morgenstern B. Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 2003a Dec 23;4(1):66. Brudno M, Do CB, Cooper GM, Kim MF, Davydov E, Green ED, et al. LAGAN and Multi-LAGAN: efficient tools for largescale multiple alignment of genomic DNA. Genome Res 2003b Apr;13(4):72131. Carraro DM, kitajima JP. Seqenciamento e bioinformtica de genomas bacterianos. Biotecnol Cinc Des 2002 Setembro/Outubro;28:16-20. Catanho M, Miranda AB, Degrave W. Comparing genomes: databases and computational tools for comparative analysis of prokaryotic genomes. RECIIS: R. Eletr. De Com. Inf. Inov. Sade Suppl 2007 Jul-Dec;1(2):Sup334-Sup355. Chen SL, Hung CS, Xu J, Reigstad CS, Magrini V, Sabo A, Blasiar D, Bieri T, Meyer RR, Ozersky P, Armstrong JR, Fulton RS, Latreille JP, Spieth J, Hooton TM, Mardis ER, Hultgren SJ, Gordon JI. Identification of genes subject to positive selection in uropathogenic strains of Escherichia coli: A comparative genomics approach. Proceedings of the National Academy of Sciences 2006 April 11;103(15):5977-5982. Ciero L, Bellato CM. Proteoma: Avanos Recentes em Tcnicas de Eletroforese Bidimensional e Espectrometria de Massa. Biotecnol Cinc Des 2002 Novembro/Dezembro;29:158-164. Clark MS. Comparative genomics: the key to understanding the Human Genome Project. Bioessays 1999 February;21(2):121-130. Coenye T, Gevers D, Van de PY, Vandamme P, Swings J. Towards a prokaryotic genomic taxonomy. FEMS Microbiol Rev 2005 April;29(2):147-167. Cole ST. Comparative mycobacterial genomics as a tool for drug target and antigen discovery. Eur Respir J Suppl 2002 Jul;36:78s-86s. Cordwell SJ. Microbial genomes and missing enzymes: redefining biochemical pathways. Arch Microbiol 1999 November;172(5):269-279. Delcher AL, Kasif S, Fleischmann RD, Peterson J, White O, Salzberg SL. Alignment of whole genomes. Nucleic Acids Res 1999 Jun 1;27(11):2369-76. Delcher AL, Phillippy A, Carlton J, Salzberg SL. Fast algorithms for largescale genome alignment and

comparison. Nucleic Acids Res 2002 Jun Gordon SV, Brosch R, Eiglmeier K, 1;30(11):2478-83. Garnier T, Hewinson RG, Cole ST. Royal Delsuc F, Brinkmann H, Philippe H. Society of Tropical Medicine and Phylogenomics and the reconstruction of Hygiene Meeting at Manson House, the tree of life. Nat Rev Genet 2005 London, 18th January 2001. Pathogen genomes and human health. May;6(5):361-375. Mycobacterial genomics. Trans R Soc Dutilh BE, van N, V, van der Heijden RT, Trop Md Hyg 2002 Jan;96(1):1-6. Boekhout T, Snel B, Huynen MA. Assessment of phylogenomic and Henz SR, Huson DH, Auch AF, Nieseltorthology approaches for phylogenetic Struwe K, Schuster SC. Whole-genome inference. Bioinformatics 2007 April prokaryotic phylogeny. Bioinformatics 2005 May 15;21(10):2329-35. 1;23(7):815-824. Felsenstein J. Evolutionary trees from DNA HGP. HUMAN GENOME PROGRAM sequences: a maximum likelihood (USA). U.S. Department of Energy. approach. J Mol Evol 1981;17(6):368-76. Genomics and Its Impact on Medicine and Society: A 2001 Primer; 2001. Felsenstein J. PHYLIP Phylogeny Inference Package (Version 3.2). Cladistics Huynen MA, Dandekar T, Bork P. Variation and evolution of the citric-acid 1989; 5: 164-6. cycle: a genomic perspective. Trends Feng DF, Doolittle RF. Progressive Microbiol 1999 July;7(7):281-291. sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol Huynen MA, Gabaldon T, Snel B. Variation and evolution of biomolecular 1987;25(4):351-60. systems: Searching for functional Fitch WM. Distinguishing homologous relevance. FEBS Lett 2005 March from analogous proteins. Syst Zool. 1970, 21;579(8):1839-1845. 19(2):99-113. Jareborg N, Birney E, Durbin R. Fitch WM. Homology a personal view on Comparative analysis of noncoding some of the problems. Trends Genet 2000 regions of 77 orthologous mouse and May;16(5):227-31. human gene pairs. Genome Res 1999 Fitzgerald JR, Musser JM. Evolutionary Sep;9(9):815-24. genomics of pathogenic bacteria. Trends Jensen RA. Orthologs and paralogs - we Microbiol 2001 Nov;9(11):547-53. need to get it right. Genome Biol Francke C, Siezen RJ, Teusink B. 2001;2(8):INTERACTIONS1002. Reconstructing the metabolic network of Karp PD, Krummenacker M, Paley S, a bacterium from its genome. Trends Wagg J. Integrated pathway-genome Microbiol 2005 November;13(11):550-558. databases and their role in drug Fraser CM, Eisen J, Fleischmann RD, discovery. Trends Biotechnol 1999 Ketchum KA, Peterson S. Comparative July;17(7):275-281. genomics and understanding of microbial Kato-Maeda M, Rhee JT, Gingeras TR, biology. Emerg Infect Dis 2000 Salamon H, Drenkow J, Smittipat N, et Sep;6(5):505-12. al. Comparing genomes within the Gabaldon T, Huynen MA. Prediction of species Mycobacterium tuberculosis. protein function and pathways in the Genome Res 2001 Apr;11(4):547-54. genome era. Cell Mol Life Sci 2004 Kent WJ, Zahler AM. Conservation, April;61(7-8):930-944. regulation, synteny, and introns in a Galperin MY, Koonin EV. Functional large-scale C. briggsae-C. elegans genomics and enzyme evolution. genomic alignment. Genome Res 2000 Homologous and analogous enzymes Aug;10(8):1115-25. encoded in microbial genomes. Genetica. Kondrashov AS. Comparative genomics 1999;106(1-2):159-70. and evolutionary biology. Curr Opin Galperin MY, Koonin EV. Whos your Genet Dev 1999 Dec;9(6):624-9. neighbor? New computational approaches Koonin EV, Aravind L, Kondrashov AS. for functional genomics. Nat Biotechnol The impact of comparative genomics on 2000 June;18(6):609-613. our understanding of evolution. Cell Galperin MY, Walker DR, Koonin EV. 2000 Jun 9;101(6):573-6. Analogous enzymes: independent Koonin EV, Mushegian AR, Bork P. Noninventions in enzyme evolution. Genome orthologous gene displacement. Trends Res. 1998, 8(8):779-90. Genet 1996 September;12(9):334-336. Ginalski K. Comparative modeling for Koonin EV. Comparative genomics, protein structure prediction. Curr Opin minimal gene-sets and the last univerStruct Biol 2006 April;16(2):172-177. sal common ancestor. Nat Rev Microbiol GOLD. Genomes Online Database. Dis- 2003 November;1(2):127-136. ponvel em: <http:// Kunin V, Ahren D, Goldovsky L, Janssen www.genomesonline.org/> Acesso em: 26 P, Ouzounis CA. Measuring genome mar. 2008.
Biotecnologia Cincia & Desenvolvimento - n 37 27

conservation across taxa: divided strains and united kingdoms. Nucleic Acids Res 2005a;33(2):616-21. Kunin V, Goldovsky L, Darzentas N, Ouzounis CA. The net of life: reconstructing the microbial phylogenetic network. Genome Res 2005b Jul;15(7):954-9. Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, Antonescu C, et al. Versatile and open software for comparing large genomes. Genome Biol 2004;5(2):R12. Lee D, Redfern O, Orengo C. Predicting protein function from sequence and structure. Nat Rev Mol Cell Biol 2007 December;8(12):995-1005. Legault B, Lopez-Lopez A, ba-Casado J, Doolittle WF, Bolhuis H, RodriguezValera F, Papke RT. Environmental genomics of Haloquadratum walsbyi in a saltern crystallizer indicates a large pool of accessory genes in an otherwise coherent species. BMC Genomics 2006;7(1):171. Lerat E, Ochman H. Recognizing the pseudogenes in bacterial genomes. Nucleic Acids Res 2005;33(10):3125-3132. Lipman DJ, Pearson WR. Rapid and sensitive protein similarity searches. Science 1985 Mar 22;227(4693):1435-41. Liu Y, Harrison PM, Kunin V, Gerstein M. Comprehensive analysis of pseudogenes in prokaryotes: widespread gene decay and failure of putative horizontally transferred genes. Genome Biol 2004;5(9):R64. Ma B, Tromp J, Li M. PatternHunter: faster and more sensitive homology search. Bioinformatics 2002 Mar;18(3):440-5. Medini D, Donati C, Tettelin H, Masignani V, Rappuoli R. The microbial pan-genome. Current Opinion in Genetics & Development 2005 December;15(6):589-594. Moran NA. Microbial minimalism: genome reduction in bacterial pathogens. Cell 2002 March 8;108(5):583586. Morett E, Korbel JO, Rajan E, SaabRincon G, Olvera L, Olvera M, Schmidt S, Snel B, Bork P. Systematic discovery of analogous enzymes in thiamin biosynthesis. Nat Biotechnol. 2003, 21(7):790-5. Morgenstern B, Frech K, Dress A, Werner T. DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics 1998;14(3):290-4. Morgenstern B, Rinner O, Abdeddaim S, Haase D, Mayer KF, Dress AW, et al. Exon discovery by genomic sequence alignment. Bioinformatics 2002 Jun;18(6):777-87.
28

Morgenstern B. DIALIGN 2: improvement of the segment-to-segment approach to multiple sequence alignment. Bioinformatics 1999 Mar;15(3):211-8. Moya A, Pereto J, Gil R, Latorre A. Learning how to live together: genomic insights into prokaryote-animal symbioses. Nat Rev Genet 2008 March;9(3):218-229. Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol 1970 Mar;48(3):443-53. Ochman H, Davalos LM. The nature and dynamics of bacterial genomes. Science 2006 March 24;311(5768):1730-1733. Ochman H, Moran NA. Genes lost and genes found: evolution of bacterial pathogenesis and symbiosis. Science 2001 May 11;292(5519):1096-1099. Otu HH, Sayood K. A new sequence distance measure for phylogenetic tree construction. Bioinformatics 2003 Nov 1;19(16):2122-30. Pareja E, Pareja-Tobes P, Manrique M, Pareja-Tobes E, Bonal J, Tobes R. ExtraTrain: a database of Extragenic regions and Transcriptional information in prokaryotic organisms. BMC Microbiol 2006;6:29. Passos GAS, Nguyen C, Jordan B. Projeto Transcriptoma: Anlise da Expresso Gnica em Larga Escala Usando DNA - Arrays. Biotecnol Cinc Des 2000 Janeiro/Fevereiro;12:34-37. Patterson SD, Aebersold RH. Proteomics: the first decade and beyond. Nat Genet 2003 March;33 Suppl:311-323. Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A 1988 Apr;85(8):2444-8. Peregrin-Alvarez JM, Tsoka S, Ouzounis CA. The phylogenetic extent of metabolic enzymes and pathways. Genome Res 2003 March;13(3):422-427. Prosdocimi F, Cerqueira GC, Binneck E, Silva AF, Reis AN, Junqueira ACM, et al. Bioinformtica: Manual do Usurio - Um guia bsico e amplo sobre os diversos aspectos dessa nova. Biotecnol Cinc Des 2002 Novembro/Dezembro;29:1225. Randhawa GS, Bishai WR. Beneficial impact of genome projects on tuberculosis control. Infect Dis Clin North Am 2002 Mar;16(1):145-61. Rigden DJ, Mello LV. Anotao funcional computacional de protenas: Novos mtodos computacionais podero preencher lacunas do sistema de anotao atual. Biotecnol Cinc Des 2002 Maro/ Abril;25:64-70.

Rocha EP. Order and disorder in bacterial genomes. Curr Opin Microbiol 2004b October;7(5):519-527. Rocha EP. The replication-related organization of bacterial genomes. Microbiology 2004a June;150(Pt 6):16091627. Schwartz S, Kent WJ, Smit A, Zhang Z, Baertsch R, Hardison RC, et al. Humanmouse alignments with BLASTZ. Genome Res 2003 Jan;13(1):103-7. Shendure JA, Porreca GJ, Church GM. Overview of DNA sequencing strategies. Curr Protoc Mol Biol 2008 January;Chapter 7:Unit. Skrabanek L, Saini HK, Bader GD, Enright AJ. Computational prediction of proteinprotein interactions. Mol Biotechnol 2008 January;38(1):1-17 Smith TF, Waterman MS. Comparison of Biosequences. Adv. Appl. Math. 1981; 2: 482-9. Souza MV, Fontes W, Ricart CAO. Anlise de Proteomas: O despertar da era psgenmica. Biotecnol Cinc Des 1999 Janeiro/Fevereiro;7:12-14. Stein L. Genome annotation: from sequence to biology. Nat Rev Genet 2001 July;2(7):493-503. Strohman RC. The coming Kuhnian revolution in biology. Nat Biotechnol 1997 Mar;15(3):194-200. Tekaia F, Yeramian E. Genome trees from conservation profiles. PLoS Comput Biol 2005 Dec;1(7):e75. Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, DeBoy RT, Davidsen TM, Mora M, Scarselli M, Ros I, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou L, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, OConnor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial pan-genome. Proceedings of the National Academy of Sciences 2005 September 27;102(39):13950-13955. Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positionspecific gap penalties and weight matrix choice. Nucleic Acids Res 1994 Nov 11;22(22):4673-80. Wei L, Liu Y, Dubchak I, Shon J, Park J. Comparative genomics approaches to study organism similarities and differences. J Biomed Inform 2002 Apr;35(2):142-50.

Biotecnologia Cincia & Desenvolvimento - n 37

GLOSSRIO Algoritmo. Procedimento organizado (passos e instrues) para executar um determinado tipo de clculo ou solucionar um determinado tipo de problema. Alinhamento de seqncias. Processo de alinhar (colocar lado a lado) duas ou mais seqncias do mesmo tipo (nucleotdicas ou proticas) de forma a obter o mximo de identidade entre elas com o propsito de determinar o grau de similaridade. Alinhamento global. Alinhamento de pares de seqncias nucleotdicas ou proticas ao longo de toda a extenso das mesmas. Alinhamento local. Alinhamento de uma ou mais partes de duas seqncias nucleotdicas ou proticas. Anlise filogentica. Anlise filogentica ou filogenia consiste no estudo das relaes evolutivas (ou seja, na reconstruo da histria evolutiva) entre grupos de organismos ou outras entidades que se acredita possurem um ancestral comum, como por exemplo, espcies, populaes e genes. Analogia. Relao entre dois caracteres quaisquer que descendem, por convergncia, de caracteres ancestrais no relacionados entre si (Fitch 1970, 2000). Bioinformtica e Biologia Computacional. Em 17 de julho de 2000, o National Institutes of Health (NIH), uma das agncias do departamento de sade norteamericano com reconhecimento internacional na rea de pesquisa biomdica, divulgou sua definio de trabalho para Bioinformtica e para Biologia Computacional, elaborada pelo Biomedical Information Science and Technology Initiative Consortium (BISTIC) Definition Committee. De acordo com este documento A bioinformtica e a biologia computacional tm suas razes nas cincias da vida bem como nas cincias da computao e informao e na tecnologia. Ambas estas abordagens interdisciplinares se beneficiam de disciplinas especficas, tais como a matemtica, a fsica, as cincias da computao e a engenharia, a biologia e as cincias do comportamento. Cada uma delas mantm interaes muito estreitas com as cincias da vida para concretizar todo o seu potencial. A bioinformtica aplica princpios das cincias da informao e da tecnologia para tornar os vastos, diversificados e complexos dados produzidos pelas cincias da vida mais compreensveis e teis. A biologia computacional usa abordagens matemticas e computacionais para resolver questes tericas e experimentais na biologia. Embora a bioinformtica e a biologia computacional sejam distintas, h significativa sobreposio e atividade em suas interfaces. (...) Bioinformtica: pesquisa, desenvolvimento ou aplicao de ferramentas e abordagens computacionais para ampliar o uso de dados de origem biolgica, mdica, comportamental ou de sade, incluindo adquirir, armazenar, organizar, arquivar, analisar ou visualizar tais dados. Biologia Computacional: desenvolvimento e aplicao de mtodos analticos e tericos de dados e tcnicas de modelagem matemtica e simulao computacional para o estudo de sistemas biolgicos, comportamentais e sociais. (BISTIC Definition Committee, 2000). [Traduo livre do autor]. DNA. Sigla em ingls para deoxyribonucleic acid, ou cido desoxirribonuclico. cido nuclico constitudo por desoxirribose, fosfato e pelas bases nitrogenadas adenina, guanina, citosina e timina. Contm as instrues genticas usadas no desenvolvimento e funcionamento de todos os seres vivos. Fatores epigenticos. Fatores (no genticos) responsveis pelo controle temporal e espacial da atividade de todos os genes necessrios para o desenvolvimento de um organismo complexo desde o zigoto at a fase adulta (citado por Strohman 1997). Fuso/Fisso gnica. Foi observado que determinados pares de protenas funcionalmente relacionadas entre si, presentes em certos organismos, tm homlogos em outros organismos fundidos em uma nica cadeia protica (Marcotte et al 1999; Enright et al 1999). O processo de formao destas protenas chamado de fuso gnica (quando h a adio de genes ou seqncias funcionais em uma cadeia de DNA) ou fisso gnica (quando h a perda de genes ou seqncias funcionais em uma cadeia de DNA). Eventos de

fuso/fisso gnica so fenmenos naturais reconhecidos como uma das principais foras evolutivas na criao de protenas de mltiplos domnios. Genes. Genes so as unidades hereditrias em todos os organismos vivos, formando componentes essenciais do genoma (o conjunto completo de informao gentica) destes organismos, sendo responsveis pelo desenvolvimento fsico, pelo metabolismo e tambm, at certo ponto, seu comportamento. Alguns genes produzem molculas de RNA enquanto outros desempenham importantes papis regulatrios ou estruturais. A maioria dos genes codifica protenas, grandes molculas compostas de longas cadeias de aminocidos, que respondem pela maioria das reaes qumicas desempenhadas pela clula. Genoma. Termo criado, em 1920, por Hans Winkler, professor de Botnica na Universidade de Hamburgo. Designa toda a informao hereditria de um organismo que est codificada no seu DNA (ou, em alguns vrus, no RNA). Isto inclui tanto os genes como as seqncias no codificadoras (conhecidas como DNA-lixo). Genmica. Anlise (em larga escala) do genoma completo de um organismo. Homologia. Relao entre dois caracteres (traos genticos, estruturais ou funcionais de um organismo) quaisquer que descendem de um caractere ancestral comum, normalmente com divergncia (Fitch 1970, 2000). Matriz de substituio. Matriz que representa todas as possveis trocas entre aminocidos, nas quais um valor atribudo a cada uma destas trocas. Estes valores so proporcionais probabilidade de ocorrncia de cada troca, tomandose como base um determinado modelo evolutivo. PAM Percent Accepted Mutation (Dayhoff et al 1978). BLOSUM - BLOcks SUbstitution Matrix (Henikoff & Henikoff 1992). Metagenmica. Tambm conhecida como genmica ambiental, ecogenmica, ou ainda genmica de comunidades, consiste na anlise do material gentico obtido diretamente de amostras ambientais, permitindo o estudo de organismos que no podem ser facilmente cultivados em laboratrio, bem como o estudo de organismos em seus ambientes naturais (Metagenomics 2008). Micobactrias. O gnero Mycobacterium (familia Mycobacteriaceae, ordem Actinomycetales), um dos mais antigos e bem conhecidos gneros de bactria, foi introduzido por Lehmann e Neumann em 1896, para incluir os agentes causadores da hansenase e da tuberculose, bactrias que haviam sido anteriormente classificadas como Bacterium leprae e Bacterium tuberculosis, respectivamente (Goodfellow & Minnikin, 1984). Os organismos pertencentes a este gnero so aerbios, imveis e no formam endsporos ou esporos; tm forma de bastonetes delgados, retos ou ligeiramente encurvados, com raras formas ramificadas. Seu DNA rico em guanina (G) e citosina (C) (de 62 a 70% G+C, com exceo de Mycobacterium leprae que tem 57.8% de GC). As micobactrias possuem ainda caractersticas peculiares como lcool-cido resistncia (uma vez coradas por corantes bsicos, resistem descolorao por solues lcool-cidas sendo, portanto, denominadas bacilos lcool-cido resistentes) e resistncia incomum dessecao e a agentes qumicos. Ortlogos. Genes homlogos em espcies diferentes originados de um gene ancestral comum, durante a especiao (Fitch 1970, 2000). peron. Grupo de genes funcionalmente relacionados entre si, regulados (em conjunto) por um mesmo operador. Parlogos. Genes homlogos em uma espcie em particular originados por duplicao (Fitch 1970, 2000). Protenas. Molculas compostas por aminocidos ligados entre si em uma ordem particular, especificada pelas seqncias de DNA dos genes

que as codificam. So componentes essenciais dos organismos, participando de todos os processos celulares (catlise enzimtica, sinalizao celular, resposta imune, adeso celular, ciclo celular etc.) e tambm como componentes estruturais e mecnicos. Protemica. Anlise (em larga escala) do conjunto completo de protenas expressas por uma clula, tecido ou organismo, em um dado momento e sob certas circunstncias ambientais. Regies sintnicas. Sintenia foi um termo originalmente cunhado para designar a presena de dois ou mais loci gnicos (prximos ou no) no mesmo cromossomo. Atualmente, refere-se tambm a duas regies de genomas distintos que mostram considervel grau de similaridade de seqncia entre si e algum grau de conservao da ordem dos genes nestas regies e que, portanto, tm probabilidade de descender de um ancestral comum. Regies de baixa complexidade. Regies em cidos nuclicos ou protenas com desvios na composio de seus resduos (nucleotdeos ou aminocidos), incluindo tratos homopolimricos (longas seqncias formadas pelo mesmo resduo), repeties com curtos espaos entre si e sobre-representaes mais sutis de alguns resduos. Seqncia genmica. Toda ou parte da cadeia de DNA que compe um genoma. Simbiontes. Organismos que vivem em simbiose, isto , dois organismos distintos que mantm ntima e longa associao entre si, na qual um ou ambos se beneficiam desta relao. Esta associao inclui relaes nas quais uma das partes vive sobre (ectobiose) ou dentro (endobiose) da outra, podendo ser obrigatria, ou seja, necessria sobrevivncia de pelo menos um dos organismos envolvidos, ou facultativa, na qual a associao benfica, porm no essencial sobrevivncia dos organismos. As categorias de simbiose incluem o mutualismo (quando ambos se beneficiam), o comensalismo (quando apenas um se beneficia e o outro no significativamente lesado ou beneficiado) e o parasitismo (quando apenas um se beneficia e o outro lesado pela relao) (Symbiosis 2008). Transcriptmica. Anlise (em larga escala) do conjunto de todos os RNA mensageiros (transcritos) de uma clula, tecido ou organismo, em um dado momento e sob certas circunstncias ambientais. Referncias bibliogrficas BISTIC Definition Committee. NIH working definition of bioinformatics and computational biology. 2000. Disponvel em: <http://www.bisti.nih.gov/ CompuBioDef.pdf> Acesso em: 26 mar. 2008. Dayhoff MO, Schwartz RM, Orcutt BC. A model of evolutionary change in proteins. In: Dayhoff MO, ed. Atlas of Protein Sequence and Structure. Washington DC: National Biomedical Research Foundation; 1978. v.5. Suppl.3. p.345-352. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA. Protein interaction maps for complete genomes based on gene fusion events. Nature 1999 Nov 4;402(6757):8690. Fitch WM. Distinguishing homologous from analogous proteins. Syst Zool 1970 Jun;19(2):99-113. Fitch WM. Homology a personal view on some of the problems. Trends Genet 2000 May;16(5):227-31. Goodfellow M, Minnikin DE. Circunscription of the genus. In: Kubica GP, Wayne LG, eds. The Mycobacteria: A Source Book. New York: Marcel Dekker; 1984. p.1-24. Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 1992 Nov 15;89(22):10915-9. Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D. Detecting protein function and proteinprotein interactions from genome sequences. Science 1999 Jul 30;285(5428):751-3. Metagenomics. In Wikipedia: The Free Encyclopedia. Wikimedia Foundation Inc. Encyclopedia on-line. Disponvel em: <http://en.wikipedia.org/wiki/Metagenomics> Acesso em: 26 mar. 2008. Strohman RC. The coming Kuhnian revolution in biology. Nat Biotechnol 1997 Mar;15(3):194-200. Symbiosis. In Wikipedia: The Free Encyclopedia. Wikimedia Foundation Inc. Encyclopedia on-line. Disponvel em: <http://en.wikipedia.org/wiki/Symbiosis> Acesso em: 26 mar. 2008.
29

Biotecnologia Cincia & Desenvolvimento - n 37