Você está na página 1de 66

CAPTULO 1

Introduo

Sumrio do captulo
A vida no espao e no tempo 23 Evoluo a mudana no decorrer do tempo no mundo dos organismos vivos 24 Dogmas: central e perifrico 26 32 Observveis e arquivos de dados 29 O uxo da informao na bioinformtica A World Wide Web 34 36 Organizao, anotao e controle de qualidade 33 Publicao eletrnica 35 Computadores e a cincia da computao Programao 37 41 44 Classicao e nomenclatura biolgica

O uso de seqncias na determinao de relaes logenticas O uso de SINES e LINES na derivao de relaes logenticas 50

Pesquisa por seqncias similares em bancos de dados: PSI-BLAST 52 Introduo estrutura de protenas 60 A natureza hierrquica da arquitetura de protenas 61 Classicao de estruturas de protenas 64 72 Predio e engenharia da estrutura de protenas 71 Critical Assessment of Structure Prediction (CASP) Engenharia de protenas Protemica 72 Microarranjos de DNA Biologia de sistemas Implicaes clnicas O futuro 77 Leituras recomendadas 77 Exerccios, problemas e weblemas 79 73 74 74 75 Espectrometria de massa 72

22

Arthur M. Lesk

A biologia tem sido tradicionalmente uma cincia mais de observao do que de deduo. Apesar de os recentes desenvolvimentos no terem alterado esta premissa bsica, a natureza da informao foi modicada radicalmente. Pode-se argumentar que, at h pouco tempo, todas as observaes biolgicas eram fundamentalmente subjetivas reconhecidamente com diferentes graus de preciso, alguns inclusive bastante elevados. Entretanto, nos ltimos anos, os dados se tornaram no apenas muito mais quantitativos e precisos como, no caso de seqncias de nucleotdeos e aminocidos, se tornaram discretos. possvel determinar a seqncia genmica de um nico organismo ou clone no apenas de forma completa, mas tambm, em princpio, de forma exata. Erros experimentais no podem ser inteiramente evitados, mas, no seqenciamento moderno de genomas, eles so extremamente baixos. No que isso tenha convertido a biologia em uma cincia dedutiva. A vida segue os princpios da fsica e qumica, mas a vida ainda muito complexa e muito dependente de contingentes histricos para que suas propriedades possam ser deduzidas em detalhes a partir de princpios bsicos. Se tal caracterstica empobrece ou enriquece a biologia, uma questo de opinio. Uma segunda propriedade bvia dos dados de bioinformtica o seu grande volume. Atualmente, os bancos de dados de seqncias de nucleotdeos contm 80.000 106 bases, ou, abreviadamente, 80.000 Mpb.* Se utilizarmos o tamanho aproximado do genoma humano 3 109 letras como unidade, esses bancos de dados conteriam 26 equivalentes ao genoma humano (Human Genome Equivalents, ou 26 huges, um nome apropriado). Para um padro de comparao mais abrangente, 1 huge equivale ao nmero total de caracteres impressos em seis anos completos de edies do jornal The New York Times. O banco de dados de estruturas de macromolculas contm 30.000 entradas, ou seja, as coordenadas tridimensionais completas de protenas, com tamanho mdio de aproximadamente 400 resduos.** Os diferentes bancos de dados no so apenas extensos, mas os seus tamanhos crescem a taxas bastante elevadas. A Figura 1.1 mostra o crescimento ao longo da ltima dcada do GenBank (banco de dados de seqncias de cidos nuclicos) e do Protein Data Bank (banco de dados de estruturas de macromolculas). Como se pode notar, extrapolaes podem ser imprecisas. Esta qualidade e quantidade de dados encorajaram os cientistas a traarem objetivos consideravelmente ambiciosos: Armar que viram a vida clara e completamente. Ou seja, o entendimento de aspectos integrados da biologia dos organismos, vistos como sistemas complexos coerentes. Inter-relacionar seqncia, estrutura tridimensional, padres de expresso, interaes e funo de protenas individuais, cidos nuclicos e complexos protena-cidos nuclicos. Integrar os dados sobre diferentes aspectos da vida de uma clula ou de um organismo numa descrio, em termos de sistema, da sua estrutura e dinmica. Usar dados acerca de organismos contemporneos como base para inferncias sobre o passado e o futuro no passado, para deduzir eventos da
* N. de T. Em abril de 2007, este nmero j ultrapassava a casa dos 100 bilhes ou 109 letras ou bases! ** N. de T. Em abril de 2007, este nmero j ultrapassava a casa das 39.000 entradas apenas para protenas!

Introduo Bioinformtica
(a) 80.000 Nmero de nucleotdeos/Mb

23

60.000

40.000

20.000

0 1996

1998

2000 Ano

2002

2004

(b) 30.000 25.000 Nmero de estruturas 20.000 15.000 10.000 5.000 0 1989

1992

1995

1998 Ano

2001

2004

Figura 1.1 (a) Crescimento do GenBank, um banco de dados de arquivos de seqncias genticas do US National Center for Biotechnology Information (NCBI). (b) Crescimento do Protein Data Bank, um arquivo de estruturas tridimensionais de macromolculas biolgicas.

histria evolucionria e, no futuro, para nortear modicaes cientcas de sistemas biolgicos. Apoiar aplicaes nas reas de medicina, agricultura e tecnologia.

A vida no espao e no tempo


difcil denir vida, e pode ser necessrio modicar sua denio ou viver desconfortavelmente com a atual medida que os computadores evoluem em capacidade de processamento e a interface entre in vivo e in silico se torna mais tnue. Por hora, experimente esta denio: um organismo biolgico um dispositivo de ocorrncia natural, que se auto-reproduz e capaz de manipular, de forma controlada, matria, energia e informao. De uma perspectiva mais ampla, a vida na Terra um sistema auto-replicativo complexo, distribudo no tempo e no espao. da maior importncia que ela seja composta, em grande parte, por organismos distintos, cada qual com tempo de vida nito e, na maioria dos casos, com caractersticas singulares.

24

Arthur M. Lesk

Espacialmente, iniciando de uma grande distncia e aproximando progressivamente, possvel distinguir, na biosfera, os ecossistemas locais, estveis at que suas condies ambientais mudem ou at que sejam invadidos. Cada espcie em um ecossistema composta por organismos que desempenham atividades individuais, seno independentes. Organismos so compostos por clulas. Cada clula um ecossistema intimamente localizado, no isolado do ambiente, mas interagindo com ele de maneiras especca e controlada. Clulas eucariticas contm uma estrutura interna complexa prpria, incluindo o ncleo e outras organelas subcelulares, e um citoesqueleto. E, por m, chegamos ao nvel das molculas. A vida se estende no apenas no espao, mas tambm no tempo. O que vemos hoje um pequeno retrato de um estgio na histria da vida que se estende h pelo menos 3,5 bilhes de anos. A teoria da seleo natural tem sido extremamente bem-sucedida na racionalizao dos processos de desenvolvimento da vida. Entretanto, acidentes histricos tm um papel dominante na determinao do curso de eventos para que uma predio detalhada seja possvel. E nem o DNA de fsseis fornece acesso signicativo a qualquer registro histrico no nvel molecular. Em vez disso, devemos tentar ler o passado em genomas contemporneos. Felix Frankfurter, juiz da Suprema Corte de Justia dos Estados Unidos da Amrica, certa vez escreveu que a constituio americana no apenas um documento, mas tambm um registro da histria. Isso tambm verdade para genomas, que contm registros da sua prpria evoluo.

Evoluo a mudana no decorrer do tempo no mundo dos organismos vivos


O processo de evoluo altera as distribuies de gentipos e fentipos em geraes sucessivas. O gentipo corresponde s informaes genticas de um organismo, a seqncia do seu genoma. Todas as caractersticas que podem ser observadas em um organismo de forma macroscpica e bioqumica compreendem o fentipo. O gentipo herdado de um dos pais, ou de ambos, e est sujeito a modicaes por mutaes ou por transferncia lateral de material gentico. O fentipo depende do gentipo, que controla o desenvolvimento do organismo sob a inuncia do seu ambiente. A assimetria entre o gentipo e o fentipo o motor da evoluo: As alteraes no gentipo so hereditrias. Efeitos do ambiente ou do estilo de vida sobre o fentipo por exemplo, uma melhor nutrio levando a um aumento da massa corporal, ou os efeitos debilitantes de uma doena ou leses no so diretamente herdveis. Durante o desenvolvimento de qualquer organismo, o gentipo limita o fentipo. O fentipo no inuencia o gentipo. Muitos gentipos podem criar o mesmo fentipo: Muitas mutaes nos genes codicadores de protenas mantm a seqncia de aminocidos inalterada, ou acarretam modicaes sem efeito na funo. Alelos so diferentes formas (seqncias) de um mesmo gene. Qualquer organismo que contenha duas ou mais cpias de um gene pode repetir o mesmo alelo (homozigoto) ou conter diferentes alelos (heterozigoto). Ho-

Em mamferos, ~20% dos loci so heterozigotos.

Introduo Bioinformtica

25

mozigotos e heterozigotos tm diferentes gentipos, mas, se um alelo for dominante, e se um nico gene apresentar controle exclusivo sobre uma caracterstica, homozigotos e heterozigotos podem apresentar o mesmo fentipo. Em quais nveis a evoluo atua? A maior parte da vida consiste em organismos distintos. Uma populao um grupo de organismos semelhantes que interagem: uma populao de organismos sexualmente reprodutivos pode cruzar entre si; os indivduos, em todas as populaes, competem por recursos. A evoluo altera a composio e a distribuio do conjunto de genes e fentipos em uma populao. Qual o mecanismo de evoluo? Em uma populao, podem surgir indivduos com uma variedade de gentipos, apresentando uma variedade correspondente de fentipos. Apesar de a evoluo no ter inuncia direta sobre o gentipo, indivduos com diferentes fentipos apresentam sucesso diferenciado na reproduo. Como resultado, a nova gerao pode ter uma distribuio alterada de gentipos e fentipos. A seleo natural reproduo acentuada dos indivduos mais aptos o mecanismo mais importante de evoluo. Outro mecanismo a deriva gnica, ou mudana aleatria nas freqncias allicas, no como resultado de um processo seletivo. A deriva gnica especialmente importante em populaes pequenas e isoladas. Os mecanismos que produzem variedade gentica criam um potencial para evoluo: Mutaes, tais como substituies pontuais, inseres e delees, e transposies. A taxa de gerao de mutaes pontuais estimada em cerca de 1012 a 1010 por par de bases por gerao. (Isso no o mesmo que a taxa de substituio allica em uma populao. Mutaes apenas propem candidatos para mudana evolucionria.) A recombinao pode unir diferentes loci ou separ-los. A recombinao em um gene pode criar um novo alelo. A recombinao entre genes pode alterar a relao entre genes e elementos regulatrios. Duplicao gnica, seguida por divergncia. Fluxo gnico, a partir da mistura de populaes, ou da transferncia lateral de genes entre espcies. A evoluo pode aumentar ou diminuir a variedade do reservatrio de genes. Se uma mutao distinta confere vantagens seletivas apenas no estado homozigoto, o gene pode se espalhar em toda a populao. A adoo do alelo por todos os membros da populao pode diminuir a variedade no reservatrio gentico. Se um gene surge e confere vantagens seletivas apenas no estado heterozigoto, o conjunto pode passar a apresentar maior variedade. Algumas mutaes originam alelos recessivos que so deletrios apenas quando em estado homozigoto. Esses alelos so difceis de remover de uma populao, especialmente se os heterozigotos apresentarem alguma vantagem compensatria, como no caso da anemia falciforme, na qual indivduos heterozigotos apresentam maior resistncia malria. Microevoluo um termo que se refere a mudanas relativamente pequenas em uns poucos genes, levando, na maioria dos casos, a alteraes relativamente pequenas nos fentipos. A microevoluo afeta indivduos em uma populao. Tcnicas modernas nos permitem rastrear a microevoluo em nvel molecular, por meio da examinao de seqncias genmicas e padres

26

Arthur M. Lesk

de expresso de protenas. Macroevoluo se refere a mudanas em larga escala, que ocorrem em uma populao como um todo, incluindo a formao de novas espcies. O registro fssil fornece uma histria (parcial) da macroevoluo, com o uso de mtodos geolgicos para a datao de eventos. A anatomia e a siologia comparativas, bem como a embriologia, fornecem informaes adicionais. As observaes da micro e da macroevoluo se complementam. As seqncias genmicas auxiliam na classicao de espcies. O registro fssil permite a datao de eventos passados que tiveram conseqncias na informao molecular que observamos atualmente. Um grande desao para a biologia moderna o entendimento de como eventos em larga escala, tal como o desenvolvimento de novas espcies, podem ocorrer como resultado de eventos microevolucionrios.

Dogmas: central e perifrico


O arquivo de informaes em cada organismo o plano de desenvolvimento e atividades em potencial o material gentico, DNA, ou, em alguns vrus, o RNA. Molculas de DNA so cadeias longas, lineares, contendo uma mensagem em um alfabeto de quatro letras (ver Quadro). Mesmo para microrganismos a mensagem longa, tipicamente com 106 caracteres. Implcitos na estrutura do DNA esto os mecanismos para auto-replicao e traduo dos genes em protenas. A dupla hlice, e sua autocomplementaridade interna, proporcionando uma replicao correta, so bem conhecidas (ver Gravura I). A replicao quase perfeita essencial para a estabilidade da herdabilidade, mas algumas imperfeies neste processo de replicao, ou mecanismos de importao de material gentico no-prprio, so tambm necessrios, caso contrrio a evoluo no poderia ocorrer em organismos assexuados. As tas na dupla hlice de DNA so antiparalelas; as direes ao longo de cada uma das tas so indicadas pelas extremidades 3 e 5 (pelas posies no anel desoxirribose). Na traduo para protenas, a seqncia de DNA sempre lida na direo 5 3. A implementao da informao gentica ocorre inicialmente com a sntese de RNA e protenas. As protenas so as molculas responsveis pela maior parte da estrutura e atividade dos organismos. Nossos cabelos, msculos, enzimas digestivas e anticorpos so todos protenas. Tanto os cidos nuclicos como as protenas so molculas que se apresentam como cadeias longas e lineares. O cdigo gentico de fato uma codicao: tripletos de letras sucessivas da seqncia de DNA especicam aminocidos consecutivos; pores da seqncia de DNA codicam seqncias de aminocidos de protenas. Tipicamente, protenas so compostas de 200 a 400 aminocidos, o que exige de 600 a 1.200 letras de mensagens de DNA expresso para especic-las. A sntese de molSydney Brenner culas de RNA, como, por exemplo, os componentes do RNA do ribossomo, estabeleceu a tambm determinada por seqncias de DNA. distino entre No entanto, nem todo o DNA expresso como protenas ou RNA estrutural. supruo e Muitos dos genes nos organismos superiores contm seqncias internas no lixo: o lixo destraduzidas, ou ntrons. Algumas regies da seqncia de DNA atuam como cartvel, enquanmecanismos de controle, e uma poro substancial do genoma dos organismos to o supruo superiores aparenta ser suprua. (O que pode signicar simplesmente que mantido. ainda no compreendemos sua funo.)

Introduo Bioinformtica

27

Os quatro nucleotdeos de ocorrncia natural no DNA (RNA) a adenina g guanina c citosina t timina (u uracila)

Os vinte aminocidos de ocorrncia natural em protenas Aminocidos no-polares G glicina I isoleucina Aminocidos polares S serina Q glutamina C cistena H histidina T treonina Y tirosina N asparagina W triptofano A alanina L leucina P prolina F fenilalanina V valina M metionina

Aminocidos carregados D cido asprtico E cido glutmico K lisina R arginina

Outras classicaes de aminocidos tambm podem ser teis. Por exemplo, histidina, fenilalanina, tirosina e triptofano so aromticos e desempenham papis estruturais especiais em protenas de membrana. Os nomes dos aminocidos so freqentemente abreviados com suas trs primeiras letras, como Gli para glicina, exceto para isoleucina, asparagina, glutamina e triptofano, que so abreviados como Ile, Asn, Gln e Trp, respectivamente. O aminocido raro selenocistena tem, como abreviao de trs letras, Sec e cdigo de uma letra U. Convencionou-se escrever os nucleotdeos em letras minsculas e os aminocidos em letras maisculas. Assim, atg = adenina-timina-guanina, e ATG = alanina-treonina-glicina.

No DNA, as molculas que compem o alfabeto so quimicamente similares, e a estrutura do DNA , em uma primeira aproximao, uniforme (embora algumas interaes DNA-protena causem distores na estrutura do DNA). Protenas e RNAs estruturais, ao contrrio, apresentam ampla variedade de conformaes tridimensionais. Essas conformaes so necessrias para garantir o desempenho de seus diversos papis funcionais. A seqncia de aminocidos de uma protena determina sua estrutura tridimensional. Para cada seqncia de aminocido natural, h um nico estado nativo estvel, o qual, sob condies adequadas, adotado espontaneamente. Se uma protena puricada aquecida, ou submetida a condies diferentes do meio siolgico normal, ela ir se desenovelar em uma estrutura desordenada e biologicamente inativa. ( por essa razo que nossos corpos tm mecanismos para a manuteno quase constante de nossas condies internas.) Quando as condies normais so restauradas, as molculas proticas geralmente reassumem a sua estrutura nativa, indistinguvel do estado original. As funes das protenas dependem de elas adotarem a estrutura tridimensional do seu estado nativo. Por exemplo, a estrutura nativa de uma enzima pode apresentar uma cavidade na sua superfcie, que se liga a uma pequena molcula

Cdigos genticos alternativos so observados em organelas cloroplastos e mitocndrias e em algumas espcies.

28

Arthur M. Lesk

O cdigo gentico padro


ttt ttc tta ttg ctt ctc cta ctg att atc ata atg gtt gtc gta gtg Phe Phe Leu Leu Leu Leu Leu Leu Ile Ile Ile Met Val Val Val Val tct tcc tca tcg cct ccc cca ccg act acc aca acg gct gcc gca gcg Ser Ser Ser Ser Pro Pro Pro Pro Tre Tre Tre Tre Ala Ala Ala Ala tat tac taa tag cat cac caa cag aat aac aaa aag gat gac gaa gag Tir Tir parada parada His His Gln Gln Asn Asn Lis Lis Asp Asp Glu Glu tgt tgc tga tgg cgt cgc cga cgg agt agc aga agg ggt ggc gga ggg Cis Cis parada Trp Arg Arg Arg Arg Ser Ser Arg Arg Gli Gli Gli Gli

De uma para trs dimenses O enovelamento espontneo de protenas para formar seus estados nativos o ponto em que a natureza realiza o grande salto do mundo unidimensional dos genes e seqncias de protenas para o mundo tridimensional em que vivemos. Existe um paradoxo: a traduo das seqncias de DNA em seqncias de aminocidos muito simples de descrever de maneira lgica; ela especicada pelo cdigo gentico. O enovelamento de uma cadeia polipeptdica em uma estrutura tridimensional precisa muito difcil de explicar de maneira lgica. Entretanto, a traduo exige a maquinaria imensamente complicada dos ribossomos, dos tRNAs e das molculas associadas; todavia, o enovelamento de protenas ocorre espontaneamente.

e a coloca prximo de seus resduos catalticos. Muitos mecanismos reguladores dependem da ligao de protenas a outras protenas ou ao DNA. Assim, temos um paradigma: A seqncia de DNA determina a seqncia da protena A seqncia da protena determina a estrutura da protena A estrutura da protena determina a funo da protena Mecanismos reguladores, incluindo mas no limitado ao controle de padres de expresso, fornecem as quantidades corretas das funes corretas, nos momentos e nos locais corretos

Introduo Bioinformtica

29

Grande parte da atividade organizada da bioinformtica est focalizada na anlise de dados relacionados a esses processos. At o presente momento, esse paradigma no inclui nveis maiores do que o da estrutura e organizao molecular, incluindo, por exemplo, questes sobre como tecidos se tornam especializados no curso do desenvolvimento ou, de forma mais geral, como efeitos ambientais exercem controle sobre eventos genticos. Em alguns casos de ciclos de retroalimentao simples, j se compreende, em nvel molecular, como um aumento na quantidade de um reagente acarreta um aumento na produo de uma enzima que catalisa sua transformao. Os programas de desenvolvimento durante a vida de um organismo so mais complexos. Estes problemas fascinantes sobre o uxo e o controle da informao em um organismo agora so acessveis ao estado da arte da bioinformtica. O tpico de biologia de sistemas est centrado na integrao e no controle das atividades de clulas e organismos.

Observveis e arquivos de dados


Um banco de dados inclui um arquivo de informaes, uma organizao lgica ou estruturada dessas informaes e ferramentas para se ter acesso a elas. Os bancos de dados da biologia molecular contm seqncias de cidos nuclicos e de protenas, estruturas e funes de macromolculas, padres de expresso, redes de vias metablicas e cascatas de regulao. Eles incluem: Bancos de dados primrios de arquivos de informaes biolgicas: Seqncias de DNA e protenas, incluindo anotao Variaes, tais como compilaes de hapltipos Estruturas de cidos nuclicos e protenas, incluindo anotao Bancos de dados especcos para organismos, incluindo bancos de dados de genomas Bancos de dados de padres de expresso protica Bancos de dados de rotas metablicas Bancos de dados de padres de interao e de vias reguladoras Bancos de dados derivados ou secundrios: estes contm informaes obtidas dos bancos de dados primrios e das anlises dos seus contedos. Por exemplo: motivos de seqncias proticas (padres de assinatura caractersticos de famlias de protenas) mutaes e variantes nas seqncias de DNA e de protenas classicaes ou relaes (conexes e caractersticas comuns das entradas dos arquivos; por exemplo, um banco de dados de conjuntos de famlias de seqncias de protenas, ou uma classicao hierrquica de padres de enovelamento de protenas) Bancos de dados bibliogrcos Bancos de dados de stios na web: bancos de bancos de dados contendo informaes biolgicas conexes entre bancos de dados

30

Arthur M. Lesk
A IO D W

ST

EB

Recursos na web: Seqncias de cidos nuclicos e de protenas O arquivo de seqncias de cidos nuclicos mantido por uma parceria entre trs entidades: o GenBank, situado no US National Center for Biotechnology Information (NCBI), em Bethesda, Maryland, Estados Unidos; o EMBL Nucleotide Sequence Database, localizado no European Bioinformatics Institute (EBI), em Hinxton, no Reino Unido; e o The Center for Information Biology e DNA DataBank of Japan, no National Institute of Genetics em Mishima, Japo. Os trs stios trocam informaes sobre novas submisses de dados diariamente, para garantir que todos tenham o mesmo contedo. Entretanto, o formato, a anotao e as conexes inerentes diferem entre as entradas correspondentes fornecidas pelos diferentes bancos de dados. O arquivo de seqncias de aminocidos de protenas, ora determinado quase exclusivamente pela traduo de seqncias de genes, mantido pelo United Protein Database (UniProt), uma juno dos bancos de dados do SWISS-PROT, do The Protein Identication Resource (PIR) e do Translated EMBL (TrEMBL). Associadas a estes arquivos existem ferramentas para a seleo e recuperao de seqncias. O Sequence Retrieval System (SRS), um produto da Lion Bioscience AG, est disponvel gratuitamente para uso acadmico por meio do European Bioinformatics Institute e de inmeros outros stios-espelho. O NCBI, nos Estados Unidos, oferece o ENTREZ. Ambos permitem pesquisas paralelas em mltiplos arquivos de dados. Muitos projetos de seqenciamento de genomas completos mantm bancos de dados focalizados em espcies individuais. Exemplos notveis so o ENSEMBL (Sanger Centre, Hinxton, Reino Unido) e os navegadores da Universidade da Califrnia, em Santa Cruz, Estados Unidos, para o genoma humano e outras espcies. Muitos bancos de dados secundrios agrupam famlias de protenas ou subunidades com base na similaridade entre suas seqncias. Um banco de dados guarda-chuva, o Interpro, integra os contedos, as caractersticas e a anotao de diversos bancos de dados individuais de famlias de protenas, domnios e stios funcionais; alm disso, contm conexes para outros bancos, incluindo a classicao funcional do Gene Ontology ConsortiumTM. O Interpro pretende incorporar bancos de dados adicionais. (Resistir intil.)

CIA

AS

SO

O mecanismo de acesso a um banco de dados o conjunto de ferramentas para responder questes, como: O banco de dados contm as informaes de que eu preciso? (Exemplo: Em quais bancos de dados posso encontrar as seqncias de aminocidos das protenas lcool desidrogenases?) Como posso organizar as informaes selecionadas de banco de dados de maneira til? (Exemplo: Como posso compilar uma lista de seqncias de globinas, ou melhor, uma tabela com seqncias de globinas alinhadas?) ndices de bancos de dados so teis em questes como Onde posso encontrar alguma informao especca? (Exemplo: Quais bancos de dados contm a seqncia de aminocidos da protena tripsina de porco-espinho?) claro que, se eu souber e puder especicar exatamente o que quero, o problema ser relativamente simples.

Introduo Bioinformtica

31

Um banco de dados sem meios efetivos de acesso apenas um cemitrio de informaes. Como ter acesso efetivo uma das questes do desenvolvimento de bancos de dados que, idealmente, deve permanecer oculta aos usurios. Tornouse claro que um acesso ecaz no pode ser fornecido apenas ao se disponibilizar um sistema de consulta sobre arquivos desordenados. Ao contrrio, a organizao lgica do armazenamento da informao deve ser elaborada j com os meios de acesso em mente que tipos de questes os usurios iro formular e a estrutura do arquivo deve se moldar ao software utilizado para recuperar a informao. Uma variedade de consultas a bancos de dados pode surgir na bioinformtica. Estas incluem: (1) Dada uma seqncia, ou fragmento de uma seqncia, encontrar seqncias no banco de dados que sejam similares seqncia ou fragmento. Este um problema fundamental na bioinformtica. Compartilhamos esses problemas de pareamento de seqncias (conjunto consecutivo de caracteres) com muitos campos da cincia da computao. Por exemplo, programas de edio e processamento de texto possuem funes de procura de seqncias de caracteres. (2) Dada a estrutura de uma protena, ou parte de uma estrutura protica, encontrar estruturas de protenas no banco de dados que sejam similares estrutura ou parte dela. Esta a generalizao do problema de pareamento de seqncias em trs dimenses. (3) Dada a seqncia de uma protena de estrutura desconhecida, encontrar estruturas no banco de dados que adotem estruturas tridimensionais (3D) similares. A procura nos bancos de dados de seqncias por protenas com seqncias similares seqncia fornecida pode ser tentadora: pois, se duas protenas apresentarem seqncias sucientemente similares, elas tero estruturas similares. Entretanto, o contrrio no verdadeiro, e pode-se ter esperanas de desenvolver ferramentas de pesquisa mais poderosas que encontrem protenas de estruturas similares mesmo que suas seqncias tenham divergido alm do ponto de poderem ser reconhecidas como similares com base apenas na comparao de suas seqncias. (4) Dada a estrutura de uma protena, encontrar seqncias no banco de dados que correspondam a estruturas similares. Novamente, pode-se car tentado a usar a estrutura para consultar o banco de dados de estruturas, porm isso somente resultar em sucesso limitado, pois existem muito mais seqncias conhecidas do que estruturas. necessrio, ento, um mtodo que possa selecionar estruturas a partir de seqncias. Os problemas (1) e (2) j esto resolvidos; pesquisas como estas so realizadas milhares de vezes por dia. J os problemas (3) e (4) so campos ativos de pesquisa. Tarefas de maior complexidade surgem quando se deseja estudar relaes entre informaes contidas em diferentes bancos de dados. Isso exige conexes que facilitem o acesso simultneo a diversos bancos de dados. Aqui est um exemplo: Para quais protenas de estrutura conhecida, envolvidas em doenas da biossntese de purinas em humanos, existem protenas relacionadas em fungos? Estamos determinando condies sobre estrutura conhecida, funo especicada, deteco de relao, correlao com doenas e espcies determinadas. Atualmente, a qualidade de um banco de dados depende no apenas da informao que contm, mas tambm da efetividade de suas conexes com outras fontes de informao. A importncia crescente do acesso simultneo aos bancos de dados levou pesquisa

32

Arthur M. Lesk

sobre a integrao entre eles como os bancos de dados podem conversar entre si sem sacricar suas liberdades de estruturar seus prprios dados e de maneira apropriada s caractersticas individuais das informaes que contm. Um problema que ainda no surgiu na biologia molecular o controle de atualizaes dos arquivos. O banco de dados de reservas de uma companhia area deve evitar que diferentes agentes vendam o mesmo assento para diferentes passageiros. Na bioinformtica, os usurios podem acessar e extrair informaes de bancos de dados de arquivos, ou ainda submeter materiais para processamento pela equipe dos bancos, mas no podem adicionar ou alterar as entradas dos bancos diretamente. Esta situao pode mudar. De um ponto de vista prtico, a quantidade de dados sendo gerada est aumentando to rapidamente a ponto de ultrapassar a capacidade que os projetos de armazenamento tm de assimil-los. J existe uma tendncia de maior envolvimento dos cientistas de bancada na preparao dos dados para submisso aos bancos de armazenamento. Apesar de haver bons argumentos para o controle exclusivo sobre os arquivos, no existe a necessidade de limitar os meios de acesso a eles vulgarmente falando, o desenvolvimento de interfaces. Comunidades de usurios especializados podem extrair subconjuntos de dados, ou combinar dados de diferentes fontes e oferecer formas especializadas de acesso. Tais bancos de dados boutique dependem dos arquivos primrios como fonte de informao, mas re-estruturam a sua prpria organizao e apresentao. De fato, diferentes bancos de dados secundrios podem dividir e manipular a mesma informao de maneiras distintas. Uma extrapolao razovel sugere o conceito de bancos de dados virtuais especializados (uma idia proposta pela primeira vez em 1981), fundamentada nos arquivos, mas fornecendo funes e escopo prprios, direcionados para as necessidades de grupos de pesquisas especcos ou, at mesmo, de cientistas individualmente.

O uxo da informao na bioinformtica


As informaes entram no domnio da bioinformtica quando um cientista deposita seus resultados experimentais em arquivos de bancos de dados apropriados. A administrao do banco de dados organiza e anota os dados, criando uma entrada com contedo e formato adequados. A entrada adicionada ao domnio pblico do banco de dados. Observe que a diviso do banco de dados em entradas determinada pela origem dos dados e no pela unidade biolgica ou pelo contexto; ou seja, uma entrada corresponde a um conjunto coerente de dados experimentais, geralmente correspondendo, tambm, a um artigo cientco publicado. Outros projetos de recuperao de informaes, em parceria com um banco de dados ou de forma independente, podem integrar uma entrada recmliberada em seus sistemas individuais. Eles podem selecionar ou reorganizar a estrutura dos dados e fornecer ferramentas para a sua anlise. A reorganizao dos dados pode envolver: A simples integrao da nova entrada a um sistema de pesquisas genricas ou especcas. A extrao de subconjuntos dos dados. Exemplos incluem (1) a identicao de genes em uma seqncia de DNA, como em um genoma de bactria ou um cromossomo eucaritico; e (2) a seleo de um conjunto de seqncias de protenas no-redundantes, tanto para restringir o espao de buscas quanto para reduzir a incerteza estatstica. A derivao de novos tipos de informaes a partir dos dados originais. Um exemplo simples: a divulgao de um gene codicador de uma protena por

Introduo Bioinformtica

33

um banco de dados contendo seqncias de DNA ser seguida pelo surgimento da sua traduo em seqncia de aminocidos nos bancos de dados de seqncias de protenas. A recombinao dos dados de diferentes formas. Muitos projetos agrupam seqncias ou estruturas de famlias de protenas homlogas, ou de protenas que compartilham uma funo. Exemplos incluem o banco de dados da protease MEROPS e o Protein Kinase Resource. (Os arquivos em bancos de dados tendem a manter entradas relacionadas separadas para preservar, com transparncia, as suas origens.) A reanotao dos dados, incluindo o fornecimento de diferentes conjuntos enormes de conexes. A integrao pode ser horizontal ou vertical. Isto , as conexes podem indicar relaes com outras entradas do mesmo tipo (por exemplo, correspondncias entre genes homlogos em um genoma ou entre genes associados a uma mesma via metablica). Ou, ainda, essas conexes podem apresentar uma variedade de informaes sobre um gene ou protena (por exemplo, conexes entre um gene e as conseqncias clnicas de suas mutaes). Muitos stios funcionam como portais entre os arquivos em bancos de dados e as ferramentas computacionais disponveis para a anlise dos dados. A recuperao de informaes permite a seleo e a extrao de dados a m de fornecer os componentes de um projeto de pesquisa. Muitos recursos de bioinformtica no apenas oferecem a recuperao de informaes, mas tambm facilitam o processamento subseqente das entradas selecionadas. Um exemplo tpico seria recuperar as seqncias de um conjunto de genes homlogos e, aps, alinh-los. O objetivo fornecer a integrao eciente entre todas as etapas do processamento de dados necessrias para um projeto de pesquisa, por meio de uma conexo robusta entre as ferramentas para armazenamento, recuperao e anlise de dados. H uma forte tendncia para a fuso e a integrao das fontes provedoras de dados em bioinformtica. Apenas concorrncias nacionais ou comerciais parecem estar no caminho de uma extrapolao do que poder vir a ser, em breve, um nico banco mundial de dados. Por causa do risco de este resultado se mostrar muito volumoso e difcil de controlar, a unicao dos bancos de dados dever ser acompanhada pela fragmentao das vias de acesso.

Organizao, anotao e controle de qualidade


As comunidades cientca e mdica so dependentes da qualidade dos bancos de dados. ndices de qualidade, mesmo que no permitam a correo de erros, podem ajudar a evitar que cheguemos a concluses erradas. Entradas de bancos de dados compreendem resultados experimentais brutos e informaes suplementares, ou anotaes, cada qual com suas prprias margens de erro. O fator determinante mais importante da qualidade dos dados em si o estado da arte dos experimentos. Dados antigos tm limitaes prprias das tcnicas mais antigas; por exemplo, as seqncias de aminocidos de protenas eram inicialmente determinadas pelo seqenciamento de peptdeos, e, agora, so traduzidas a partir de seqncias de DNA (exceto no seqenciamento parcial por espectrometria de massa; ver Captulo 6). Uma conseqncia da exploso de dados que a maior parte dos dados de seqncias informao nova, gerada pela tecnologia atual, que, na maior parte dos casos, tem um bom desempenho. As anotaes incluem informaes sobre a fonte dos dados e a metodologia utilizada para a sua obteno. Elas identicam os pesquisadores responsveis e citam as publicaes relevantes. Elas fornecem conexes para informaes

34

Arthur M. Lesk

relacionadas em outros bancos de dados. Em bancos de dados de seqncias, as anotaes incluem tabelas de caractersticas: listas de segmentos das seqncias que possuem relevncia biolgica por exemplo, regies de uma seqncia de DNA que codicam protenas. Essas informaes aparecem em formatos passveis de anlise por computador, e seus contedos podem ser limitados por um vocabulrio controlado. Note que a conformidade entre bancos de dados, com relao a um vocabulrio controlado e s denies dos termos, essencial para as operaes de recuperao de informao envolvendo interaes entre mltiplos bancos de dados, tais como consultas distribudas. Antigamente, o registro de uma seqncia de DNA tpica era produzido por um nico grupo de pesquisa que estudava a relao entre um gene e o seu produto. As anotaes se baseavam em dados experimentais gerados localmente e eram escritas por especialistas. J os projetos de seqenciamento de genomas completos no oferecem conrmaes experimentais da expresso da maior parte dos genes putativos, nem a caracterizao de seus produtos. Os administradores de bancos de dados baseiam suas anotaes em anlises de seqncias por programas computacionais. A anotao o ponto mais fraco dos projetos genoma. Sua automao possvel apenas de forma limitada; faz-la de forma correta ainda exige muito esforo, e os recursos alocados so inadequados. Contudo, a importncia de uma anotao precisa no pode ser subestimada. P Bork frisou que erros na anotao de . genes prejudicam a alta qualidade dos prprios dados de seqncias. O crescimento dos dados genmicos ir permitir um progresso na qualidade da anotao medida que a preciso dos mtodos estatsticos aumenta. Isso permitir uma reanotao mais precisa das entradas. O melhoramento da qualidade da anotao ser um fator positivo. Porm, implica uma conseqncia perturbadora; a de que a anotao ser instvel. Este problema agravado pela proliferao de stios na web com uma rede de conexes crescente e sobrecarregada. Esses stios fornecem oportunidades para o desenvolvimento de aplicativos. Mas a web tambm um vetor para o contgio e a propagao de erros em dados brutos, em dados prematuros que podem ser corrigidos, mas cujas correes no so divulgadas, ou ainda de anotaes distintas para uma mesma seqncia. A nica soluo possvel um processo distribudo e dinmico de anotao e correo de erros. Distribudo, pois, em bancos de dados cujos responsveis no possuem nem tempo nem conhecimento, especialistas tero que atuar como administradores. Dinmico, pois o progresso na automao da anotao e na identicao e correo de erros permitir a reanotao dos bancos de dados. Teremos, entretanto, que desistir da idia cmoda de um banco de dados estvel, composto de entradas que esto corretas quando ali depositadas e que permaneam inalteradas. Os bancos de dados se tornaro uma sopa efervescente de informaes, crescendo em tamanho e tambm espera-se em qualidade.

A World Wide Web


Todos os leitores j usaram a World Wide Web (rede mundial de computadores) para pesquisa de material de referncia, para obter notcias, para ter acesso a bancos de dados de biologia molecular, para checar informaes particulares de pessoas amigos, colegas ou celebridades ou apenas para navegar. A web um meio de contato entre pessoas e entre computadores atravs de redes. Ela funciona como uma aldeia global completa, contendo o equivalente a bibliotecas, correios, lojas e escolas.

Introduo Bioinformtica

35

A web pode ser imaginada como um gigantesco quadro de avisos multimdia exposto em todo o mundo. Ela contm textos, imagens, lmes e sons. Praticamente, qualquer coisa que possa ser armazenada em um computador pode ser disponibilizada e acessada via web. Um exemplo interessante o stio sobre a poesia de Walt Whitman (www.whitmanarchive.org). A primeira pgina contm um sumrio. O stio contm os textos impressos de diferentes poemas. Voc pode comparar edies diferentes, ter acesso anlise crtica dos poemas e ver alguns deles em verses manuscritas. Existe at uma conexo para um arquivo de udio, com uma gravao do prprio Whitman lendo parte de um poema. As conexes contidas em um stio da web podem ser internas ou externas. Conexes internas podem lev-lo a outras partes do texto do documento sendo explorado, ou a imagens, lmes ou sons associados. Conexes externas podem permitir que voc se mova verticalmente, para baixo, dirigindo-se a documentos mais especcos, ou para cima, para documentos mais genricos (talvez fornecendo desde informaes mais bsicas at as mais tcnicas); ou ainda horizontalmente, para documentos similares (outros artigos sobre um mesmo assunto), ou para um nvel mais externo para diretrios que mostrem que outro material relevante est disponvel. A primeira atitude a tomar, para comear a utilizar a web de maneira ecaz, encontrar os stios de entrada teis. Uma vez iniciada uma sesso, as conexes o levaro aonde quer que voc deseje ir. Entre os stios mais importantes, esto as ferramentas de pesquisa, como o Google, que indexa toda a web e permite a recuperao de dados atravs de palavras-chave. Voc pode entrar com um ou mais termos, tais como fosforilase, mudana alostrica, estrutura cristalina, e o programa que realiza a pesquisa retornar uma lista de conexes para stios na web que contenham esses termos. Uma vez que voc tenha completado uma sesso com sucesso, na prxima vez que voc se conectar, as facilidades prprias da memria dos navegadores permitiro que continue, sem problemas, do ponto onde parou. Durante qualquer sesso, quando voc se deparar com um documento para o qual gostaria de retornar mais tarde, basta armazenar a conexo em um arquivo de marcadores de pginas favoritas da web (bookmarks) ou favoritos. Em uma sesso subseqente, voc pode retornar diretamente para qualquer stio desta lista, sem necessitar percorrer todo o caminho de conexes que o levaram inicialmente quele ponto. Uma home page pessoal um pequeno esboo autobiogrco (com conexes, claro). Seus colegas podero ter suas prprias home pages que tipicamente contm nome, aliao institucional, endereos para correios eletrnico e postal, nmeros de telefone e de fax, uma lista de publicaes e de interesses de pesquisas atuais. No incomum que home pages contenham informaes pessoais, tais como passatempos favoritos, fotos da pessoa com o cnjuge e lhos, e at mesmo com seu animal de estimao! Mas a web no uma via de mo nica. Muitos documentos a contidos incluem formulrios, nos quais se pode inserir informaes e executar um programa que retorna os resultados dentro da sua sesso. As ferramentas de pesquisa so exemplos comuns. Muitos clculos em bioinformtica so agora realizados por servidores na web. Se os clculos so muito demorados, os resultados podem no ser retornados na mesma sesso, mas enviados por correio eletrnico.

Publicao eletrnica
Estamos em um perodo notvel de transio para a publicao sem papel. Cada vez mais publicaes esto surgindo na web. Uma revista cientca pode publicar na web apenas sua lista de contedos, ou a lista de contedos com os resumos dos artigos, ou mesmo os artigos completos. Muitas publicaes institucionais

36

Arthur M. Lesk

boletins e relatrios tcnicos esto disponveis na web. Muitas outras revistas e jornais esto surgindo tambm. Voc pode tentar http://www.nytimes.com. Muitas publicaes impressas agora contm referncias para conexes na web com material suplementar que nunca ser publicado em papel. [Enquanto este livro estava sendo encaminhado para publicao, o Google anunciava parcerias com bibliotecas acadmicas para disponibilizar colees completas de livros online. Isso ir criar novos meios de obteno e transmisso de informaes.]

Computadores e a cincia da computao


A bioinformtica no seria possvel sem os avanos na rea de hardware e software computacionais. Meios de armazenamento rpidos e de alta capacidade so essenciais at para manter os bancos de dados. A obteno e a anlise de informaes exigem programas; alguns bastante simples e outros extremamente sosticados. A distribuio de informaes requer as facilidades de redes de computadores e da World Wide Web. A cincia da computao um campo novo e promissor com o objetivo de fazer o uso mais ecaz do hardware da tecnologia da informao. Certas reas da cincia da computao terica se relacionam mais diretamente com a bioinformtica. Vamos consider-las em relao a um problema biolgico especco: recuperar de um banco de dados todas as seqncias que so similares a uma seqncia sonda. Uma boa soluo para esse problema ir recorrer cincia da computao para: Anlise de algoritmos Um algoritmo uma especicao completa e precisa de um mtodo de resoluo de um problema. Para a recuperao de seqncias similares, precisamos medir a similaridade da seqncia sonda com cada seqncia do banco de dados. possvel fazer muito melhor do que a soluo simples de checar cada par de posies em cada justaposio possvel, um mtodo que, mesmo sem permitir a insero de lacunas, exigiria um tempo proporcional ao produto do nmero de caracteres na seqncia sonda pelo nmero de caracteres no banco de dados. Uma especializao da cincia da computao, conhecida vulgarmente como stringology, concentra-se no desenvolvimento de mtodos ecientes para este tipo de problema, analisando seus desempenhos efetivos.* Estrutura de dados e recuperao de informao Como podemos organizar nossos dados para uma resposta eciente a consultas? Por exemplo, existem meios de indexar ou, de outra maneira, pr-processar os dados para tornar mais ecientes nossas pesquisas por similaridade entre seqncias? Como podemos fornecer interfaces que auxiliaro o usurio a conceber e executar essas consultas? Engenharia de software Raramente algum ainda escreve programas na linguagem natural (de baixo nvel) dos computadores. Programadores trabalham com linguagens de alto nvel, como C, C++, PERL (Pratical Extraction and Report Language), JAVA ou at mesmo FORTRAN. A escolha da linguagem de programao depende da natureza do algoritmo e da estrutura de dados associada, assim como do uso esperado do programa. Certamente, os softwares mais complicados utilizados em bioinformtica so escritos por especialistas. O que traz tona a questo de quanto conhecimento de programao de computadores precisa ter um especialista em bioinformtica.
* N. de T. Stringology a cincia que estuda seqncias de caracteres, como a seqncia de uma protena, DNA ou RNA.

Introduo Bioinformtica

37

Programao
A programao est para a cincia da computao assim como o assentamento de tijolos est para a arquitetura. Ambos so criativos: um uma arte; o outro, uma habilidade. Muitos estudantes de bioinformtica perguntam se imprescindvel aprender a escrever programas de computador complicados. Meu conselho (com o qual nem todos da rea concordam) : No. A menos que voc queira se especializar nisto. Para trabalhar com bioinformtica, voc dever se tornar um especialista no uso das ferramentas disponveis na web. Aprender como criar e manter um stio essencial. E, claro, voc dever ter facilidade no uso do sistema operacional do seu computador. Alguma habilidade para escrever scripts simples em uma linguagem como PERL fornece uma extenso essencial das funes bsicas do sistema operacional.* Por outro lado, o tamanho dos arquivos de dados e a complexidade crescente das questes que pretendemos responder exigem respeito. Uma programao de alto nvel e criativa, nesta rea, car melhor nas mos de especialistas bem treinados em cincia da computao. Porm, o uso de programas atravs de interfaces na web muito renadas, para no dizer vistosas, no fornece qualquer indicao da natureza da atividade envolvida na escrita e na depurao dos programas. Bismarck disse certa vez que aqueles que adoram lingias ou a lei no deveriam ver como ambas so produzidas. Talvez a programao de computadores devesse ser includa nesta lista. Eu recomendo o aprendizado de algumas habilidades bsicas em PERL, ou em uma das linguagens relacionadas, Python ou Ruby. Essas linguagens permitem o desenvolvimento de ferramentas poderosas. Elas facilitam bastante a execuo de muitas tarefas simples e teis, e esto disponveis na maioria dos sistemas de computadores. O quanto se deve aprender de PERL para que seja til em bioinformtica? Muitas instituies ministram cursos. Aprender com colegas vlido, dependendo da sua aptido e da pacincia de seus colegas. Livros tambm esto disponveis. Um meio bastante til encontrar tutoriais na web procure em um stio de pesquisas por tutorial PERL e voc encontrar muitos stios teis que lhe ensinaro o bsico. E, claro, utilize-o o mximo que voc puder. Este livro no vai lhe ensinar PERL, mas lhe dar oportunidades de praticar o que voc aprendeu em outros lugares. Se suas ambies quanto programao forem alm das tarefas simples, visite o projeto Bioperl, uma fonte de programas e bibliotecas em PERL aplicada bioinformtica (ver http://bio.perl.org/) e disponvel gratuitamente. Exemplos de programas simples em PERL so descritos neste livro. O poder da linguagem PERL em lidar com caracteres e/ou seqncia de caracteres a torna conveniente na resoluo de problemas que envolvem seqncias biolgicas. Aqui est um programa PERL bastante simples para a traduo de seqncias de nucleotdeos em seqncia de aminocidos de acordo com o cdigo gentico padro. A primeira linha, #!/usr/bin/perl, um sinal para o sistema operacional UNIX (ou LINUX) de que o que segue um programa PERL. Dentro do programa, todo texto iniciado com #, at o nal da linha em que aparece,

* N. de T. Scripts so um conjunto de comandos, que podem ser escritos em diversas linguagens como PERL, Python, etc., armazenados em um arquivo-texto, que so executados seqencialmente.

38

Arthur M. Lesk

Exemplo de PERL 1.1 Traduo de uma seqncia de DNA em uma seqncia de aminocidos utilizando o cdigo gentico padro

i i

i i

e e e e

i i

i i i i

Executando este programa com os dados de entrada fornecidos, obtm-se como resultado:

apenas um comentrio. A linha __END__ indica o trmino do programa e que a informao seguinte so os dados de entrada. Mesmo esse programa simples mostra muitas caractersticas da linguagem PERL. O arquivo contm as informaes bsicas (a tabela de traduo do cdigo gentico), instrues que dizem ao computador o que fazer e os dados de entrada (que aparecem aps a linha __END__). Os comentrios explicam brevemente as sees do programa e descrevem o efeito de cada instruo. O programa estruturado em blocos mantidos entre chaves: {...}, as quais so teis no controle do uxo de execuo. Dentro dos blocos, instrues individuais (cada uma terminando com um ;) so executadas na ordem em que aparecem. O bloco externo, que no est entre chaves, representa um lao:

Introduo Bioinformtica

39

while ($line = <DATA>) { ... }

Aqui, <DATA> se refere s linhas dos dados de entrada (que aparecem aps
__END__). O bloco executado uma vez para cada linha dos dados de entrada; ou seja, while indica enquanto houver linhas nos dados de entrada que ainda

no foram lidas. Trs tipos de estruturas de dados aparecem no programa. A linha dos dados de entrada, referida como $line, uma simples seqncia de caracteres. Ela dividida em uma matriz ou vetor de tripletos de nucleotdeos. Uma matriz armazena diversos itens em uma ordem linear, e itens individuais dos dados podem ser recuperados a partir de suas posies na matriz. Para facilitar a consulta a um aminocido codicado por qualquer tripleto, o cdigo gentico armazenado como uma matriz associativa. Uma matriz associativa, ou uma tabela de busca, uma generalizao de uma matriz simples ou seqencial. Enquanto os elementos de uma matriz simples so indexados por inteiros consecutivos, os elementos de uma matriz associativa so indexados por qualquer seqncia de caracteres, neste caso, os 64 tripletos. Utilizamos os tripletos de entrada na ordem em que aparecem na seqncia nucleotdica, mas precisamos acessar os elementos da tabela do cdigo gentico em uma ordem arbitrria, determinada pela sucesso de tripletos. Uma matriz simples ou um vetor de seqncia de caracteres so apropriados para o processamento de tripletos sucessivos, e a matriz associativa apropriada para consulta aos aminocidos correspondentes.

Exemplo de PERL 1.2 Montagem de fragmentos com sobreposies Este outro programa PERL que ilustra aspectos adicionais da linguagem.* Esse programa reagrupa a frase:
All the worlds a stage, And all the men and women merely players; They have their exits and their entrances, And one man in his time plays many parts.

aps ela ter sido dividida em fragmentos aleatrios com sobreposies (\n nos fragmentos representa o m da linha na frase original):
the men and women merely players;\n one man in his time All the worlds their entrances,\nand one man stage,\nAnd all the men and women They have their exits and their entrances,\n worlds a stage,\nAnd all their entrances,\nand one man in his time plays many parts. merely players;\nThey have

Este tipo de clculo importante na montagem de seqncias de DNA a partir de fragmentos com sobreposies (ver Problemas 1.5 e 1.6).
*Esta seo pode ser pulada em uma primeira leitura.

40

Arthur M. Lesk

Exemplo de PERL 1.2 (continuao)

Introduo Bioinformtica

41

Classicao e nomenclatura biolgica


Vamos retornar ao sculo XVIII, quando a vida acadmica era mais simples, pelo menos em alguns aspectos. A nomenclatura biolgica se baseia na idia de que os organismos vivos so divididos em unidades denominadas espcies grupos de organismos similares com um reservatrio gentico comum. (Por que organismos vivos deveriam ser quantizados em espcies discretas uma questo bastante complicada.) Linnaeus, um naturalista sueco, classicou os organismos vivos de acordo com uma hierarquia: Reino, Filo, Classe, Ordem, Famlia, Gnero e Espcie (ver Quadro). Taxonomistas modernos adicionaram mais nveis a esta classicao. Para a identicao, geralmente suciente especicar o binmio Gnero e Espcie; por exemplo, Homo sapiens para humanos e Drosophila melanogaster para a mosca-das-frutas. Cada binmio descreve uma nica espcie, que tambm pode ser conhecida por um ou mais nomes comuns; por exemplo, Bos taurus = vaca. Certamente, a maioria das espcies no possui nomes comuns. Classicaes do ser humano e da mosca-das-frutas
Ser humano Reino Filo Classe Ordem Famlia Gnero Espcie Animalia Chordata Mammalia Primata Hominidae Homo sapiens Mosca-das-frutas Animalia Arthropoda Insecta Diptera Drosophilidae Drosophila melanogaster

Originalmente, o sistema de Linnaeus era apenas uma classicao baseada nas similaridades observadas. Com a descoberta da evoluo, percebeu-se que esse sistema reetia basicamente a ancestralidade biolgica. A questo sobre quais semelhanas realmente reetem uma ancestralidade comum deve agora ser encarada. Caractersticas derivadas de um ancestral comum so chamadas de homlogas; por exemplo, as asas de uma guia e os braos de um ser humano. Outras caractersticas aparentemente similares podem ter surgido de forma independente por evoluo convergente; por exemplo, as asas de uma guia e as asas de uma abelha. De modo oposto, caractersticas realmente homlogas podem ter divergido para se tornarem muito diferentes em estrutura e funo. Os ossos do ouvido mdio dos humanos so homlogos aos ossos das mandbulas dos peixes primitivos; nossas trompas de Eustquio so homlogas s guelras dos peixes. Na maioria dos casos, os especialistas conseguem distinguir as homologias genunas das similaridades resultantes de evoluo convergente. A anlise de seqncias fornece a evidncia mais clara das relaes entre as espcies. O sistema funciona bem para os organismos superiores, para os quais

42

Arthur M. Lesk

a anlise de seqncias e as ferramentas clssicas da anatomia comparativa, paleontologia e embriologia fornecem, normalmente, dados consistentes. A classicao de microrganismos mais difcil, em parte porque a seleo de caractersticas para fundamentar as suas classicaes menos bvia, e em parte pela grande quantidade de transferncia gnica lateral que ameaa mudar completamente o cenrio. Os RNAs ribossomais tm a caracterstica essencial de estarem presentes em todos os organismos, com o grau ideal de divergncia. (Graus de divergncia e de parentesco muito elevados ou muito pequenos tornam-se invisveis, ou seja, so difceis de serem estimados.) Com base nos RNAs ribossomais 16S, C. Woese dividiu os organismos vivos em trs domnios fundamentais (um nvel acima de Reino na hierarquia): Bacteria, Archaea e Eukarya (ver Figura 1.2). Os domnios Bacteria e Archaea so constitudos de procariotos; suas clulas no contm ncleo. O domnio Bacteria inclui os microrganismos tipicamente responsveis por muitas doenas infecciosas e, claro, Escherichia coli, o modelo principal da biologia molecular. O domnio Archaea compreende os termlos e hallos extremos, os redutores de sulfato e os metanognicos. Ns pertencemos ao domnio Eukarya organismos cujas clulas contm ncleo, incluindo a levedura e todos os organismos multicelulares. Um levantamento das espcies com genomas seqenciados destaca as bactrias, por causa de sua importncia clnica e pela facilidade relativa do seqenciamento dos genomas de procariotos. Contudo, fundamentalmente, temos mais a aprender sobre ns mesmos a partir de estudos com archaeas do que com bactrias. Pois, sem considerar as diferenas bvias no estilo de vida, e a ausncia de um ncleo, as archaeas so, em alguns pontos, mais prximas dos eucariotos do que das bactrias em nvel molecular. provvel tambm que as archaeas sejam os organismos vivos mais prximos da raiz na rvore da vida. A Figura 1.2 mostra os nveis mais bsicos da rvore da vida. O ramo do domnio Eukarya inclui animais, plantas e fungos. No nal desse ramo esto os metazorios (organismos multicelulares Figura 1.3). Ns e nossos parentes mais prximos somos deuterostmios (Figura 1.4).

Bacteria

Archaea Hallos extremos

Eukarya Animais Fungos limosos Fungos Entamoeba Plantas Ciliados

Bactria verde Methanobacterium no-sulfurosa Bactria grampositiva Methanococcus Bactria prpura Pyrodictium Cianobactria Flavobactria Thermotoga Aquifex Thermoproteus

Thermoplasma Thermococcus

Flagelados Triploblsticos

Diploblsticos

Figura 1.2 Divises principais dos organismos vivos, derivadas por C. Woese com base nas seqncias de RNAs ribossomais 16S.

Introduo Bioinformtica

43

Deuterostmios

Vertebrata (humanos) Cephalochordata (lampreia) Urochordata (seringa marinha) Hemichordata (verme bolota) Echinodermata (estrela-do-mar, ourios-do-mar) Briozoa Entoprocta Platyhelminthes (vermes achatados) Pogonophora (vermes cilndricos) Brachiopoda Phoronida Nemertea (vermes em forma de ta) Annelida (vermes segmentados) Echiura Mollusca (lesma, mexilho, lulas) Sipuncula (verme amendoim) Gnathostomulida Rotifera Gastrotricha Nematoda (vermes arredondados) Priapulida Kinorhynchas Onychophora (vermes aveludados) Tardigrada (urso dgua) Arthropoda (insetos, caranguejos) Ctenophora (gua-viva em forma de tulipa) Cnidaria (gua-viva) Porifera (esponjas) Fungos (leveduras, cogumelos) Plantas

Figura 1.3 rvore logentica dos metazorios (animais multicelulares). Os bilatrios incluem todos os animais que compartilham simetria lateral (direita/esquerda) no plano corporal. Protostmios e deuterostmios so duas linhagens principais separadas nos estgios iniciais da evoluo h aproximadamente 670 milhes de anos. Ambos mostram padres bastante diferentes de desenvolvimento embrionrio, incluindo diferentes padres iniciais de diviso celular denominada clivagem, orientaes opostas do intestino completo em relao invaginao inicial da blstula, e a origem do esqueleto a partir da mesoderme (deuterostmios) ou ectoderme (protostmios). Os protostmios compreendem dois subgrupos diferenciados pelas seqncias do RNA 18S (da subunidade ribossomal menor) e do gene HOX. Morfologicamente, os ecdisozorios possuem uma cutcula protetora uma camada externa rgida composta de material orgnico. Os lofotrocozorios tm corpos moles. (Baseado em Adouette, A., Balavoine, G., Lartillot, N., Lespinet, O., Prudhomme, B. & de Rosa, R. (2000), The new animal phylogeny: Reliability and implications, Proceedings of National Academy of Sciences USA, 97:4453-4456.)

Lofotrocozorios Ecdisozorios

Bilatrios

Protostmios

44

Arthur M. Lesk
Equinodermos (Estrela-do-mar) Deuterostmios Urocordados (Vermes tunicados) Cefalocordados (Anoxo) Peixes gnatos (Lampreia, Enguia) Peixes cartilaginosos (Tubaro) Peixes sseos (Zebrash) Anfbios (R) Mamferos (Humanos) Rpteis (Lagarto) Aves (Galinha)

Figura 1.4 rvore logentica dos vertebrados e nossos parentes mais prximos. Cordados, incluindo os vertebrados, e equinodermos so todos deuterostmios.

O uso de seqncias na determinao de relaes logenticas


As sees anteriores introduziram conceitos de bancos de dados de seqncias e relaes biolgicas. Nesta seo, so apresentados exemplos de aplicaes de recuperao de seqncias em bancos de dados, suas comparaes, at a anlise de suas relaes biolgicas.

Estudo de Caso 1.1: Obtenha a seqncia de aminocidos da ribonuclease pancretica de cavalo (horse pancreatic ribonuclease) Use o servidor ExPASy do Swiss Institute for Bioinformatics. A sua URL http://expasy.org/cgi-bin/sprot-search-ful. Digite as palavraschave horse pancreatic ribonuclease e ento pressione a tecla ENTER. Selecione RNP_HORSE e ento o formato FASTA (ver Quadro O formato FASTA). O resultado ser o seguinte (aps truncar a primeira linha):

o qual pode ser selecionado e utilizado em outros programas.* Por exemplo, poderamos selecionar diversas seqncias e alinh-las (ver Quadro Alinhamento de seqncias). As anlises de padres de similaridade de seqncias alinhadas so bastante teis na avaliao de suas relaes de parentesco.
* N. de T. Como a bioinformtica uma disciplina bastante dinmica e os bancos de dados e as interfaces esto sendo constantemente melhorados e atualizados, pode ocorrer de o resultado apresentado neste livro no ser exatamente o que se obtm na data atual da sua pesquisa. As diferenas devem estar mais relacionadas ao formato do que ao contedo.

Introduo Bioinformtica

45

O formato FASTA Um formato bastante comum para dados de seqncias derivado das convenes do FASTA, um programa para alinhamento rpido (FAST Alignment), desenvolvido por W. R. Pearson. Muitos programas utilizam o formato FASTA para a leitura de seqncias ou para a informao de seus resultados. Uma seqncia no formato FASTA: Inicia com uma nica linha de descrio. O sinal > deve aparecer na primeira coluna. O contedo do restante da linha ttulo ou de identicao arbitrrio, mas deve ser informativo. As linhas subseqentes contm a seqncia, um caractere por resduo. Utiliza o cdigo de uma letra para nucleotdeos ou aminocidos especicado pela Unio Internacional de Bioqumica e pela Unio Internacional de Qumica Pura e Aplicada (IUB/IUPAC). Ver: http://www.chem.qmw.ac.uk/iupac/misc/naabb.html e http://www.chem.qmw.ac.uk/iupac/AminoAcid/ Utilize Sec e U como cdigos de trs e de uma letra, respectivamente, para o aminocido selenocistena: http://www.chem.qmw.ac.uk/
iubmb/newsletter/1999/item3.html

As linhas podem ter comprimentos diferentes; ou seja, a margem direita pode ser irregular. A maioria dos programas aceitar letras minsculas para seqncias de aminocidos. Um exemplo de formato FASTA: a glutationa peroxidase bovina (bovine glutathione peroxidase).

A linha ttulo ou de identicao contm as seguintes informaes: O sinal > obrigatrio na coluna 1. gi|121664 o seu nmero geninfo, um identicador atribudo pelo US National Center for Biotechnology Information (NCBI) para cada seqncia no seu banco de dados ENTREZ. O NCBI coleta seqncias a partir de vrias fontes, incluindo colees de arquivos de dados primrios e pedidos de patentes. Seus nmeros gi fornecem um identicador, do tipo guardachuva, comum e consistente, para as seqncias, sobrepondo as diferentes convenes dos bancos de dados fonte. Quando um banco de dados fonte atualiza uma entrada, o NCBI cria uma nova entrada com um novo nmero gi se a atualizao alterar a seqncia, mas apenas atualiza e mantm sua entrada quando as alteraes afetarem apenas as informaes que no concernem seqncia, tal como referncias na literatura. sp|P00435 indica que o banco de dados fonte o SWISS-PROT, e que o nmero de acesso da entrada no SWISS-PROT P00435. GSHC_BOVIN GLUTATHIONE PEROXIDASE o identicador da seqncia e da espcie (GSHC_BOVIN), no SWISS-PROT, seguido pelo nome da molcula.

46

Arthur M. Lesk

Alinhamento de seqncias O alinhamento de seqncias a atribuio de correspondncias entre pares de resduos. Ns queremos encontrar: Um alinhamento Global: alinhar todos os caracteres de uma seqncia com todos os caracteres da outra seqncia.
And.--so,.from.hour.to.hour,.we.ripe.and.ripe

| | ||

| | | || | | | || | | | | | | || | | | | | | | |

| | | ||||

And.then,.from.hour.to.hour,.we.rot-.and.rot-

Este exemplo ilustra malpareamentos, inseres e delees. Um alinhamento Local: encontrar uma regio em uma seqncia que se alinha a uma regio de outra seqncia.
My.care.is.loss.of.care,.by.old.care.done, | | || | | | | | | || | | | | || | || || | | || | | || Your.care.is.gain.of.care,.by.new.care.won

Para o alinhamento local, os caracteres que no pareiam nas extremidades no so tratados como lacunas. Alm de malpareamentos, vistos neste exemplo, inseres e delees tambm so possveis na regio alinhada. Um alinhamento de Motivos: encontrar alinhamentos de uma seqncia pequena com uma ou mais regies internas de uma seqncia longa.
match ||| | | The match is made; she seals it with a curtsy.

Pode-se permitir o malpareamento de alguns caracteres:


match |||| for the watch to babble and to talk is most tolerable or: match match | || || | And witch the world with noble horsemanship.

ou inseres e/ou delees:


mat--ch || | Fear not, Macbeth; no Shall eer have power mat-ch || | man thats born of woman upon thee.

Um alinhamento Mltiplo: um alinhamento simultneo de muitas seqncias.


no.sooner.---met.---------but.they.-lookd no.sooner.lookd.---------but.they.-lo-vd no.sooner.lo-vd.---------but.they.-sighd no.sooner.sighd.---------but.they.--asked.one.another.the.reason no.sooner.knew.the.reason.but.they.-------------sought.the.remedy no.sooner. .but.they.

A ltima linha mostra os caracteres conservados em todas as seqncias do alinhamento mltiplo. Ver Captulo 4 para uma discusso mais detalhada sobre alinhamentos.

Introduo Bioinformtica

47

Estudo de Caso 1.2 Determine, a partir das seqncias da ribonuclease pancretica do cavalo (Equus caballus), da baleia-branca (Balaenoptera acutorostrata) e do canguru-vermelho (Macropus rufus), quais destas espcies so mais proximamente relacionadas. Sabendo-se que o cavalo e a baleia so animais placentrios e que o canguru um marsupial, espera-se que o cavalo e a baleia sejam as espcies mais relacionadas. Obtendo as trs seqncias como no exemplo anterior e as inserindo como no formato abaixo:

no programa CLUSTAL-W de alinhamento mltiplo de seqncias


http://www.ebi.ac.uk/clustalw/

(ou, alternativamente, T-coffee:


http://www.ch.embnet.org/software/TCoffee.html)

obtm-se o seguinte resultado:


CLUSTAL W (1.8) mutiple sequence alignment

Nesta tabela, um * sob as seqncias indica uma posio conservada (o resduo idntico em todas as seqncias), e : ou . indicam posies em que todas as seqncias contm resduos de caractersticas fsico-qumicas muito similares (:), ou com pouca similaridade (.). Segmentos considerveis das seqncias so idnticos. H vrias substituies, mas apenas uma deleo interna. Comparando as seqncias par a par, o nmero de resduos idnticos (no o mesmo que contar *s no alinhamento mltiplo acima) entre os pares desse alinhamento : Nmero de resduos idnticos no alinhamento das seqncias de ribonuclease A (de um total de 122 a 128 resduos)
Cavalo Baleia-branca Cavalo e e e Baleia-branca Canguru-vermelho Canguru-vermelho 95 82 75

48

Arthur M. Lesk

O cavalo e a baleia compartilham o maior nmero de resduos idnticos. Este resultado parece expressivo e, portanto, conrma nossas expectativas. Ateno: Ou seria a lgica exatamente o contrrio?

Estudo de Caso 1.3 Vamos tentar um exemplo mais complicado: Os dois gneros vivos de elefantes so representados pelo elefante africano (Loxodonta africana) e indiano (Elephas maximus). Foi possvel seqenciar o citocromo b de mitocndrias de uma espcime de mamute lanoso siberiano (Mammuthus primigenius), conservado no subsolo permanentemente congelado do rtico. Com qual elefante moderno o mamute est mais relacionado? Obtendo as seqncias e executando o CLUSTAL-W, chega-se ao seguinte resultado:

Enquanto as seqncias do mamute e do elefante africano apresentam 8 malpareamentos, as seqncias do mamute e do elefante indiano apresentam 14. Parece que o mamute est mais proximamente relacionado aos elefantes africanos. Porm, este resultado menos satisfatrio do que o anterior. H menos diferenas entre as seqncias. Elas so signicativas? (Neste caso, mais difcil decidir se as diferenas so signicativas porque no temos uma idia preconcebida sobre qual deveria ser a resposta.)

Introduo Bioinformtica

49

Este exemplo levanta algumas questes: (1) Ns sabemos que os elefantes africano e indiano e o mamute devem ser parentes prximos; basta olhar para eles. Mas podemos armar, a partir apenas destas seqncias, que elas pertencem a espcies proximamente relacionadas? (2) Dado que as diferenas so poucas, elas representam de fato uma seleo natural ou apenas erro ou utuao aleatrios? Precisamos de critrios estatsticos sensveis para julgar a signicncia dessas similaridades e diferenas. Seria til vericar os prprios genes e checar a razo entre o nmero de substituies no-sinnimas e sinnimas. (Uma substituio sinnima uma alterao na seqncia de cidos nuclicos que no altera a seqncia da protena que ela codica. Ver pginas 27-28.) Uma razo alta entre substituies no-sinnimas e sinnimas sugere divergncia sob presso seletiva. Como embasamento para tais questes, vamos destacar a diferena principal entre similaridade e homologia. Similaridade a observao ou mensurao de semelhana e diferena, independentemente da origem da semelhana. Homologia signica, especicamente, que as seqncias e os organismos nos quais ocorrem descendem de um ancestral comum, com a implicao de que as similaridades so caractersticas ancestrais compartilhadas. A similaridade de seqncias (ou de caractersticas biolgicas macroscpicas) visvel nos dados coletveis atualmente, e no envolve hipteses histricas. Ao contrrio, armaes sobre homologia envolve eventos histricos, os quais, na maioria das vezes, no so observveis. A homologia tem de ser uma inferncia a partir da observao de similaridades. Apenas em alguns casos especiais a homologia observvel diretamente; por exemplo, em rvores genealgicas de famlias que apresentam fentipos incomuns, tal como o lbio de Hapsburg, ou em populaes de laboratrio, ou em estudos clnicos que monitoram, em nvel de seqncias, o curso de infeces virais em pacientes individuais. A armao de que os citocromos b dos elefantes africano e indiano e de mamute so homlogos signica que existiu um ancestral comum, provavelmente contendo um nico tipo de citocromo b que, por meio de mutaes alternativas, originou as protenas de mamute e dos elefantes modernos. O alto grau de similaridade entre estas seqncias justica a concluso de que elas so homlogas, ou pode haver outras explicaes? Pode ser que um citocromo b funcional exija tantos aminocidos conservados que os citocromos b de todos os animais so to similares uns aos outros quanto so as protenas de mamute e dos elefantes. Podemos testar esta hiptese vericando a seqncia do citocromo b de outras espcies. O resultado que os citocromos b das outras espcies diferem substancialmente dos de elefante e de mamute. Uma segunda possibilidade que existam necessidades siolgicas especiais para o funcionamento adequado do citocromo b em animais com a forma e o tamanho de um elefante, de maneira que as trs seqncias de citocromos b analisadas surgiram de ancestrais distintos e, submetidas mesma presso seletiva, tenham se tornado similares. (Lembre-se de que estamos perguntando sobre o que pode ser deduzido a partir apenas das seqncias do citocromo b.) O mamute pode estar mais relacionado com o elefante indiano e, desde a poca do ltimo ancestral comum, a seqncia do citocromo b do elefante indiano evoluiu mais rpido do que a do elefante africano ou do mamute, acumulando mais mutaes.

50

Arthur M. Lesk

Existe ainda a possibilidade de uma quarta hiptese: a de que todos os ancestrais comuns de elefantes e mamutes tinham citocromos b muito diferentes, mas que os elefantes e os mamutes vivos adquiriram um gene comum, de um organismo no-relacionado, transferido por um vrus. Suponha, contudo, que concluamos que a similaridade entre as seqncias de elefante e mamute alta o suciente para implicar homologia; ento, o que dizer das seqncias de ribonuclease do exemplo anterior? A diferena maior entre as ribonucleases pancreticas de cavalo, baleia e canguru uma evidncia de que elas no sejam homlogas? Como podemos responder a estas questes? Especialistas tomaram cuidados extras na calibrao das similaridades e divergncias entre muitas protenas, de muitas espcies, cujas relaes taxonmicas foram estudadas por mtodos clssicos. No exemplo das ribonucleases pancreticas, a concluso de que a similaridade implica homologia justicada. A questo de qual espcie mais proximamente relacionada ao mamute, se o elefante africano ou indiano, s foi decidida recentemente em favor dos elefantes africanos. A anlise de similaridades entre seqncias em genomas e protenas est to bem estabelecida que pode ser considerada o mtodo mais ecaz na determinao de relaes logenticas, mesmo que em alguns casos os resultados no sejam signicativos ou, em outros, nem mesmo levem resposta correta. Existem muitos dados disponveis, assim como ferramentas ecientes para se obter a informao necessria para o tratamento de questes especcas, e ferramentas de anlise bastante robustas. Nenhum desses benefcios, porm, substitui a necessidade de uma avaliao cientca criteriosa.

O uso de SINES e LINES na derivao de relaes logenticas


Os principais problemas na inferncia de logenias por meio da comparao de seqncias de genes e de protenas so (1) a grande variao da similaridade, que pode car bem abaixo da signicncia estatstica, e (2) os efeitos de diferentes taxas de evoluo em ramos distintos da rvore evolucionria. Em muitos casos, mesmo que a similaridade entre seqncias estabelea relaes conveis, pode ser impossvel determinar a ordem em que os grupos de txons (ou taxa, em latim) se separaram. O sonho dos especialistas em logentica caractersticas do tipo tudo ou nada, cuja manifestao irreversvel de forma que a ordem de ramicao dos eventos pode ser decidida , em alguns casos, proporcionado por seqncias no-codicadoras nos genomas. SINES e LINES (para Short Interspersed Nuclear ElementS e Long Interspersed Nuclear ElementS) so seqncias no-codicadoras, repetitivas, que representam grandes fraes do genoma de eucariotos pelo menos 30% do DNA cromossmico humano e mais de 50% em alguns genomas de plantas superiores. Tipicamente, os SINES possuem entre 70 e 500 pares de base, e estima-se que at um milho dessas seqncias estejam espalhadas no genoma humano. Os LINES podem ter at 7.000 pares de base, e o seu nmero de cpias no genoma humano pode chegar a centenas de milhares de cpias. Os SINES so incorporados ao genoma pela transcrio reversa de RNA. A maioria dos SINES contm uma poro 5 homloga ao tRNA, uma regio central no relacionada ao tRNA, e uma poro 3 rica em AT. Caractersticas dos SINES que os tornam teis no estudo de logenias incluem: Um SINE est presente ou ausente. A presena de um SINE em uma posio especca uma propriedade que no acarreta nenhuma mensurao varivel e complicada de similaridade.

Introduo Bioinformtica

51

Os SINES so inseridos aleatoriamente na poro no-codicadora de um genoma. Portanto, a presena de SINES similares no mesmo locus, em duas espcies, implica que essas espcies possuem um ancestral comum em cujo genoma o evento de insero ocorreu. Nenhum anlogo de evoluo convergente altera este quadro, pois no h presso seletiva para stio de insero. A insero de SINES parece ser irreversvel: nenhum mecanismo de perda de SINES conhecido, a no ser eventos raros de delees em larga escala de pores do DNA que incluem o SINE. Dessa forma, se duas espcies possuem um SINE em um locus comum, a ausncia deste SINE em uma terceira espcie signica que as duas primeiras esto mais prximas uma da outra do que da terceira. Os SINES no apenas indicam parentescos, mas tambm indicam qual espcie surgiu primeiro. O ltimo ancestral de espcies contendo um SINE comum deve ter surgido depois do ltimo ancestral comum que liga essas espcies e outra que no contm este SINE. N. Okada e colaboradores aplicaram as seqncias SINES a problemas de logenia. As baleias, como os australianos, so animais mamferos que adotaram um estilo de vida aqutico. Mas no caso das baleias quais so seus parentes mais prximos que ainda tm hbitos terrestres? A paleontologia clssica relaciona a ordem Cetacea compreendendo baleias, golnhos e toninhas* com a ordem Artiodactyla

Camelos Porcos ino(ARE2) gpi(ARE) pro(ARE) ino(ARE) c21-352(CHR-1) Pgha (CHR-1) aaa228(CHR-1) aaa792(CHR-1) Gm5(CHR-1) HIP5(CHR-1) HIP24(CHR-1) KM14(CHR-1) HIP4(CHR-1) AF(CHR-1) aaa792(Bov-tA) Fas(Bov-tA) Pcora Hipoptamos HIP5(CHR-2) Baleias odontocetas Baleias misticetas aaa792(CHR-2) Queixada Cervos-rato

Tylopoda

Suiformes

Ruminantia

Hippopotamidae

Cetacea

Pm52(CHR-2) Pm72(CHR-2) M11(CHR-2)

Figura 1.5 Relaes logenticas entre cetceos e outros subgrupos dos artiodctilos, derivadas de anlises de seqncias SINES. As pequenas setas indicam eventos de insero. Cada seta indica a presena de um SINE ou LINE particular, em um locus especco em todas as espcies direita das setas. Letras minsculas identicam os loci e letras maisculas identicam padres de seqncias. Por exemplo, o padro ARE2 aparece apenas em porcos, no locus ino. O padro ARE aparece duas vezes no genoma dos porcos, nos loci gpi e pro, e no genoma da queixada, nos mesmos loci. As inseres ARE ocorreram em uma espcie ancestral aos porcos e queixadas, e em nenhuma outra espcie no diagrama. Isso signica que porcos e queixadas so mais prximos um do outro evolutivamente do que de quaisquer dos outros animais estudados. (De Nikaido, M., Rooney, A. P. & Okada, N. (1999), Phylogenetics relationships among cetartiodactyls based on insertions of short and long interspersed elements: hippopotamuses are the closest extant relatives of whales, Proceedings of the National Academy of Sciences USA, 96, 10261-10266. (Copyright 1999, National Academy of Sciences, USA. Reproduzida com permisso.)
* N. de T. As toninhas se diferem do golnho pelo focinho curto.

52

Arthur M. Lesk

mamferos ungulados com um nmero par de dedos nas patas (incluindo os bovinos). Os cetceos teriam divergido antes do ancestral comum das trs subordens artiodctilas existentes: Suiformes (porcos), Tylopoda (incluindo camelos e lhamas) e Ruminantia (incluindo cervos, gado, bodes, ovelhas, antlopes, girafas, etc.). Para acomodar os cetceos de forma correta entre esses grupos, foram realizados vrios estudos com seqncias de DNA. Comparaes de DNA mitocondrial, dos genes da ribonuclease pancretica, do -brinognio e de outras protenas sugeriram que os parentes mais prximos das baleias so os hipoptamos, e que os cetceos e hipoptamos formam um grupo separado dentro dos artiodctilos, estando mais prximos aos Ruminantia (ver Weblema* 1.7). A anlise de SINES conrma este parentesco. Diversos SINES so comuns aos Ruminantia, hipoptamos e cetceos. Quatro SINES aparecem somente nos hipoptamos e cetceos. Estas observaes resultam na rvore logentica mostrada na Figura 1.5, onde os eventos de inseres de SINES esto indicados. Fsseis recm-descobertos de ancestrais de hbitos terrestres das baleias conrmam a ligao entre baleias e artiodctilos. Este um bom exemplo da complementaridade entre mtodos moleculares e paleontolgicos: a anlise de seqncias de DNA pode especicar as relaes entre espcies vivas de forma bastante precisa, mas os fsseis revelam as relaes com os seus ancestrais extintos.

Pesquisa por seqncias similares em bancos de dados: PSI-BLAST


Um tema comum nos exemplos que temos usado a pesquisa em bancos de dados por itens similares a um item de interesse. Se, por exemplo, voc estiver estudando um novo genoma, ou identicar no genoma humano um gene responsvel por alguma doena, voc vai querer determinar que outras espcies apresentam genes relacionados. O mtodo ideal deve ser tanto sensvel ou seja, capaz de identicar at mesmo seqncias pouco relacionadas quanto seletivo isto , todas as relaes que ele prope so verdadeiras.

Preciso e seletividade Os mtodos de pesquisa em bancos de dados envolvem um compromisso entre preciso e seletividade. O mtodo capaz de identicar todos ou a maioria dos exemplos que esto realmente presentes, ou ele perde uma grande frao? De maneira inversa, quantos dos exemplos identicados (ou hits) so incorretos? Suponha que um banco de dados contenha 1.000 seqncias de globinas. Suponha tambm que uma pesquisa por globinas neste banco de dados liste 900 resultados, 700 dos quais so realmente globinas e 200 no. A concluso seria que este resultado apresenta 300 falso-negativos (seqncias no-identicadas) e 200 falso-positivos. Diminuindo o limiar de tolerncia, aumentar o nmero de ambos, os falso-negativos e os falso-positivos. Muitas vezes, desejvel trabalhar com limiares baixos para garantir que nada de importante seja perdido; porm, isso exige uma examinao detalhada dos resultados a m de se eliminar os falso-positivos.
* N. de T. A palavra em ingls Weblem, uma combinao das palavras Web e Problem, est sendo traduzida como Weblema em portugus e signica um problema que necessita dos recursos da web para ser resolvido.

Introduo Bioinformtica

53

Uma ferramenta bastante robusta para pesquisar seqncias em bancos de dados a partir de uma seqncia sonda o PSI-BLAST (Position Specic Iterated-Basic Local Alignment Search Tool) do NCBI. Um programa anterior, BLAST, funcionava identicando regies de similaridade locais, sem lacunas, para ento reuni-las. O PSI no nome PSI-BLAST refere-se a melhorias que identicam padres nas seqncias, nos estgios iniciais da pesquisa no banco de dados, para depois ren-la progressivamente. O reconhecimento de padres conservados pode aumentar tanto a seletividade quanto a preciso da pesquisa. O PSI-BLAST envolve um processo repetitivo, ou iterativo, como diz o prprio nome, j que os padres descobertos se tornam cada vez mais denidos em estgios sucessivos da pesquisa.

Estudo de Caso 1.4:

Homlogos do gene PAX-6 humano

Os genes PAX-6 controlam o desenvolvimento dos olhos em um conjunto de espcies bastante divergentes (ver Quadro). O gene PAX-6 humano codica a protena depositada no SWISS-PROT sob o nmero de entrada P26367. Para executar o PSI-BLAST, v para a seguinte URL: http://www.ncbi. nlm.nih.gov/blast/index.shtml e selecione PHI- e PSI-BLAST, em Protein. Cole a seqncia no campo Search e use as opes-padro para as selees do banco de dados a ser pesquisado e da matriz de similaridade. O programa retornar uma lista de entradas similares seqncia sonda, classicadas de acordo com a ordem decrescente da signicncia estatstica (Extratos da resposta obtida so mostrados no Quadro Resultados da pesquisa com o PSI-BLAST pela protena PAX-6 humana na pgina 55. Apenas algumas linhas so mostradas, meramente para ilustrar o formato dos resultados.) Uma linha tpica, da parte mais inferior na lista, tem este formato:
pir||I45557 eyeless, long form fruit y (Drosophila melano... 255 7e-67

O primeiro item da linha indica o banco de dados e o nmero de acesso correspondente da entrada (separados por ||), neste caso, a entrada I45557 do PIR (Protein Information Resource). Ela a protena homloga eyeless de Drosophila melanogaster. O nmero 255 o escore para o alinhamento detectado, e a sua signicncia estatstica dada por E = 7 1067. O parmetro E est relacionado com a probabilidade de o grau de similaridade observado ter ocorrido por acaso. Ou seja, E o nmero de seqncias com as quais se esperaria um alinhamento igual ou melhor do que aquele obtido com a seqncia sonda, se o mesmo banco de dados fosse pesquisado com seqncias aleatrias. E = 7 1067 signica que extremamente improvvel que mesmo uma seqncia aleatria se alinharia to bem quanto a homloga de Drosophila. Valores de E abaixo de 0,05 seriam considerados signicativos; eles deveriam ao menos ser considerados. Para casos duvidosos, voc poderia perguntar: Os malpareamentos so conservados? Existe algum padro ou os pareamentos e malpareamentos esto distribudos aleatoriamente ao longo das seqncias? Existe um conceito vago, difcil de compreender, denominado textura ou perl do alinhamento, com o qual voc ir se familiarizar. A soluo denitiva reside em saber se as estruturas so similares, mas esta informao nem sempre est disponvel.

54

Arthur M. Lesk

Note que, se existirem muitas seqncias no banco de dados que sejam bastante similares seqncia sonda, elas estaro no topo da lista de resultados. Neste exemplo, existem muitos genes PAX similares em outros vertebrados. Voc ter de examinar cuidadosamente at o nal da lista para encontrar parentes distantes que considera relevantes. Mesmo no caso da protena eyeless de Drosophila, um parente bastante prximo da seqncia sonda, o programa relata apenas um alinhamento local para uma parte das seqncias. O alinhamento completo mostrado no Quadro Alinhamento de seqncia par a par completo das protenas PAX-6 humana e eyeless de Drosophila melanogaster, na pgina 57.

Et in terra PAX hominibus, muscisque... Os olhos dos humanos, da mosca e do polvo so estruturalmente bastante diferentes. O conhecimento convencional, observando a imensa vantagem seletiva conferida pela habilidade de enxergar, armava que os olhos se desenvolveram de forma independente em diversos los. Foi, portanto, uma grande surpresa quando se descobriu que um gene responsvel pelo controle do desenvolvimento do olho em humanos possui um homlogo responsvel pelo desenvolvimento do olho em Drosophila. Os genes PAX-6 humano e de camundongo foram os primeiros a serem clonados. PAX-6 um gene regulador do desenvolvimento, que controla uma cascata complexa de eventos no desenvolvimento do olho. Mutaes no gene humano causam uma condio clnica chamada aniridia, um defeito no desenvolvimento do olho em que a ris encontra-se ausente ou deformada. O homlogo PAX-6 em Drosophila chamado de gene eyeless possui a funo similar de controlar o desenvolvimento ocular. Moscas com mutaes nesse gene no desenvolvem olhos; de forma semelhante, a expresso desse gene nas asas, pernas ou antenas da mosca produz olhos ectpicos (fora do lugar). (O mutante eyeless de Drosophila foi descrito pela primeira vez em 1915. Pouco se suspeitou na poca da relao com genes de mamferos.) Os genes de insetos e mamferos no apenas tm seqncias similares, mas esto relacionados em tal grau que as suas funes cruzam barreiras interespeccas. A expresso do gene PAX-6 de camundongo em Drosophila leva ao desenvolvimento de olhos ectpicos, da mesma forma que a expresso do gene eyeless da prpria mosca. PAX-6 possui homlogos em outros los, incluindo vermes achatados, ascdias, ourios-do-mar e nematdeos. A observao de que as rodopsinas uma famlia de protenas que contm retinal como cromforo funcionam como pigmentos sensveis luz em diferentes los uma evidncia de suporte para uma origem comum dos diferentes sistemas fotorreceptores. As diferenas estruturais genunas na anatomia macroscpica dos diferentes olhos reetem a divergncia e o desenvolvimento independente de estrutura de ordem superior.

Introduo Bioinformtica

55

Resultados da pesquisa com o PSI-BLAST pela protena PAX-6 humana Cinco iteraes do PSI-BLAST foram realizadas utilizando a PAX-6 humana como seqncia sonda na pesquisa ao banco de dados no-redundante (nr). O banco de dados nr do NCBI um conjunto de seqncias nicas, selecionadas a partir dos bancos de dados completos, com a nalidade de eliminar redundncias. O arquivo de sada contm uma lista das seqncias similares identicadas no banco de dados. Ele tambm contm os alinhamentos par a par das regies bem alinhadas entre a seqncia sonda e as seqncias encontradas. Trs alinhamentos selecionados so mostrados aqui: PAX-6 de Danio rerio, E = 10134; eyeless de Drosophila, E = 7 1067; e outra protena de Drosophila, even skipped, com E = 0,001, cujo alinhamento mais curto e menos perfeito:
Escore = 46,9 bits (110) e Valor E = 0,001

... resultados adicionais removidos... ... seguem trs alinhamentos selecionados...

56

Arthur M. Lesk

Resultados da pesquisa com o PSI-BLAST pela protena PAX-6 humana (continuao)


Alignments >gi|18859209|ref|NP_571379.1| paired box gene 6a; paired box homeotic gene 6 [Danio rerio] Length = 451

Introduo Bioinformtica

57

Alinhamento de seqncia par a par completo das protenas PAX-6 humana e eyeless de Drosophila melanogaster

58

Arthur M. Lesk

Espcies reconhecidas pelo PSI-BLAST (hits) como similares seqncia sonda PAX-6 humana

Exemplo PERL 1.3 Quais espcies detectadas pelo PSI-BLAST contm homlogas da PAX-6 humana? O PSI-BLAST relata as espcies em que foram identicadas seqncias (ver Quadro Resultados da pesquisa com o PSI-BLAST pela protena PAX-6 humana). Estas informaes aparecem entre colchetes no texto do arquivo de sada; por exemplo:
emb|CAA56038.1| (X79493) transcription factor [Drosophila melanogaster]

(Na seo contendo os valores de E, os nomes das espcies podem estar truncados.)

Introduo Bioinformtica

59

O programa PERL a seguir extrai os nomes das espcies do arquivo de sada do PSI-BLAST.

Foram encontradas 122 espcies (ver Quadro: Espcies reconhecidas pelo PSI-BLAST (hits) como similares seqncia sonda PAX-6 humana). O programa utiliza os excelentes recursos de reconhecimento de padres do PERL para localizar seqncias de caracteres da forma [Drosophila melanogaster]. Queremos especicar o seguinte padro: um colchete para abrir, seguido de uma palavra iniciando com letra maiscula, seguida por um nmero varivel de letras minsculas, ento, um espao entre palavras, depois, uma palavra inteira em letras minsculas, e, nalmente, um colchete para fechar. Este tipo de padro denominado expresso regular e aparece no programa PERL da seguinte forma: [([AZ][az]+ [az]+)]. Cada um dos blocos da expresso acima especica um grupo de caracteres: [AZ] = qualquer letra na faixa A, B, C, ... Z [az] = qualquer letra na faixa a, b, c, ... z Podemos especicar repeties: [AZ] = uma letra maiscula [az]+ = uma ou mais letras minsculas e combinar os resultados: [AZ][az]+ [az]+ = uma letra maiscula seguida de uma ou mais letras minsculas (o nome do gnero), seguida de um espao, seguido de uma ou mais letras minsculas (o nome da espcie).

60

Arthur M. Lesk

Exemplo PERL 1.3 (continuao)

Colocar a expresso entre parnteses: ([AZ][az]+ [az]+) diz ao PERL para salvar os dados que conferem com o padro para consultas futuras. No programa PERL, esses dados que conferem com o padro so designados pela varivel $1. Assim, se a linha de entrada contiver [Drosophila melanogaster], a instruo
$species{$1} = 1;

resultar efetivamente em:


$species{"Drosophila melanogaster"} = 1;

Por m, queremos incluir os colchetes envolvendo os nomes do gnero e da espcie, mas colchetes signicam faixas de caracteres. necessrio, portanto, colocar barras antes dos colchetes: \[...\] para obter o padro nal: \[([AZ][az]+ [az]+)\]. O uso da matriz associativa para preservar somente um nico conjunto de espcies outro aspecto instrutivo do programa. Lembre-se de que uma matriz associativa uma generalizao de uma matriz comum ou vetor, em que os elementos no so indexados por nmeros inteiros, mas por seqncias de caracteres arbitrrias. Uma segunda consulta a uma matriz associativa, com uma seqncia de ndices previamente encontrada, talvez pudesse alterar o valor na matriz, mas no a lista de seqncias de ndices. Neste caso, no nos preocupamos com o valor, apenas utilizamos as seqncias de ndices para compilar uma lista nica de espcies detectadas. Referncias mltiplas mesma espcie iro apenas sobrescrever a primeira referncia, e no originar uma lista repetitiva. Verses mais atuais do PSI-BLAST descrevem tambm a distribuio taxonmica das espcies encontradas nas pesquisas. Contudo, o programa PERL fornecido neste exemplo poderia ser til caso se queira obter os alinhamentos, ou realizar outros tipos de anlises dos resultados.

Introduo estrutura de protenas


Com a estrutura de protenas, deixamos para trs o mundo unidimensional de seqncias de nucleotdeos e aminocidos e entramos no mundo tridimensional das estruturas moleculares. Alguns dos recursos para armazenamento e recuperao de informaes biolgicas moleculares sobrevivem a esta mudana relativamente intactos, alguns so substancialmente alterados e outros desaparecem completamente. Bioquimicamente, as protenas desempenham uma variedade de papis nos processos vitais: h protenas estruturais (por exemplo, as protenas do capsdeo viral, a camada mais externa e spera da pele de humanos e de outros animais, e as protenas do citoesqueleto); protenas que catalisam reaes qumicas (as enzimas); protenas de transporte e de armazenagem (hemoglobina e ferritina); protenas reguladoras, incluindo hormnios e protenas sinalizadoras ou receptoras de sinais; protenas que controlam a transcrio gnica; e protenas envolvidas em reconhecimento, incluindo molculas de adeso celular, anticorpos e outras protenas do sistema imune. Protenas so molculas grandes. Em muitos casos, apenas uma pequena poro da estrutura o stio ativo funciona de maneira precisa, com o restante da estrutura existindo principalmente para criar e manter as relaes espaciais entre os resduos do stio ativo. As protenas evoluram por meio de alteraes estrutu-

Introduo Bioinformtica

61

rais, originadas por mutaes na seqncia de aminocidos e rearranjos gnicos, que integram diferentes combinaes de subunidades estruturais. Atualmente so conhecidas cerca de 30.000 estruturas de protenas.* A maioria foi determinada por cristalograa por difrao de raios X ou por ressonncia magntica nuclear (NMR nuclear magnetic ressonance). A partir destas estruturas, obtivemos o nosso conhecimento acerca das funes de protenas individuais por exemplo, a explicao qumica da atividade cataltica das enzimas e dos princpios gerais de estrutura e enovelamento de protenas. Do ponto de vista qumico, as molculas de protenas so polmeros longos contendo, tipicamente, milhares de tomos, compostos por um esqueleto repetitivo uniforme (ou cadeia principal) com uma cadeia lateral especca ligada a cada resduo (ver Figura 1.6). A seqncia de aminocidos de uma protena equivale a uma srie de cadeias laterais. A cadeia polipeptdica se enovela no espao; o seu percurso, ou o arranjo da cadeia principal, dene um padro de enovelamento. As protenas apresentam uma grande variedade de padres de enovelamento. Implcitas a esses padres h diversas caractersticas estruturais comuns. Essas caractersticas incluem a recorrncia de padres estruturais explcitos por exemplo, hlices e folhas (Figura 1.7) e princpios ou caractersticas comuns, como o denso empacotamento de tomos no interior das protenas. O enovelamento pode ser pensado como um tipo de condensao ou cristalizao intramolecular (ver Captulo 5).

A natureza hierrquica da arquitetura de protenas


O qumico de protenas dinamarqus K. U. Linderstrm-Lang descreveu os seguintes nveis de estruturas de protenas: a seqncia de aminocidos o conjunto de ligaes qumicas primrias chamada de estrutura primria. A atribuio de hlices e folhas de acordo com o padro de pontes de hidrognio da cadeia principal denominada estrutura secundria. O agrupamento e as interaes das hlices e folhas formam a chamada estrutura terciria. Para protenas compostas por mais de uma subunidade, J. D. Bernal denominou o agrupamento dos monmeros estrutura quaternria. Em alguns casos, a evoluo pode fundir protenas transformando a estrutura quaternria em terciria. Por exemplo, cinco enzimas distintas da bactria E. coli, que catalisam etapas sucessivas na via de biossntese de aminocidos aromticos, correspondem a cinco regies de uma nica protena no fungo Aspergillus nidulans. Ocasionalmente, monmeros homlogos formam oligmeros de diferentes maneiras; por exemplo, as globinas formam tetrmeros em hemoglobinas de mamferos, e dmeros utilizando uma interface diferente no marisco arcado Scapharca inaequivalvis.
Resduo i 1 S i 1 Resduo i Si Resduo i +1 S i +1

... N C C N C C N C C ... O O O

} Cadeias laterais variveis

} Cadeia principal constante

Figura 1.6 As cadeias polipeptdicas de protenas possuem uma cadeia principal de estrutura constante e cadeias laterais de seqncia varivel. Aqui, Si 1, Si e Si +1 representam as cadeias laterais. As cadeias laterais podem ser escolhidas, independentemente, do conjunto de 20 aminocidos-padro. a seqncia de cadeias laterais que confere a cada protena suas caractersticas estruturais e funcionais.
* N. de T. Em agosto de 2007, este nmero chegava a pouco mais de 41.000 estruturas.

62

Arthur M. Lesk

(a)

(b)

Figura 1.7 Estruturas secundrias regulares de protenas. (a) Hlice . (b) Folha . tomos de hidrognio no esto representados. (b) Ilustra uma folha paralela, nas quais todas as cadeias apontam na mesma direo. Folhas antiparalelas, nas quais todos os pares de cadeias adjacentes apontam em direes opostas, tambm so comuns. De fato, as folhas podem ser formadas por qualquer combinao de cadeias paralelas e antiparalelas.

A utilizao de nveis adicionais na hierarquia j se mostrou til: Estruturas supersecundrias Protenas apresentam um padro comum de interao entre hlices e folhas que esto prximas na seqncia. Essas estruturas supersecundrias incluem o grampo de hlices , o grampo e a unidade -- (Figura 1.8). Domnios Muitas protenas contm unidades compactas dentro do padro de enovelamento de uma nica cadeia que parecem possuir estabilidade independente. Essas unidades so chamadas domnios. (No confunda domnio enquanto subestruturas de protenas com domnio enquanto classe de organismos vivos: Archaea, Bacteria e Eukarya.) A protena L1 de ligao ao RNA apresenta caractersticas tpicas de protenas multidomnio: o stio de ligao est situado na fenda criada entre os dois domnios e a geometria relativa dos dois domnios exvel, permitindo mudanas conformacionais induzidas pelo ligante (Figura 1.9). Na hierarquia, os domnios cam entre as estruturas supersecundrias e a estrutura terciria de um monmero integral.

Introduo Bioinformtica
(a)

63

(b)

(c)

Figura 1.8 Estruturas supersecundrias comuns. (a) Grampo de hlices (-helix hairpin), (b) grampo de tas (-hairpin*), (c) unidade . As listras anguladas, preenchendo as estruturas, indicam a direo da cadeia.
* N. de T. Hairpin signica grampo de cabelo. Este precisamente o formato das estruturas em (a) e (b) e da a origem dos seus nomes em portugus.

64

Arthur M. Lesk

Figura 1.9 Protena ribossomal L1 de Methanococcus jannaschii [cdigo PDB: 1 CJS]. ([cdigo PDB: 1 CJS] o cdigo de identicao desta entrada no Protein Data Bank PDB.)

Protenas modulares Protenas modulares so protenas multidomnio que, com freqncia, compreendem muitas cpias de domnios proximamente relacionados. Os domnios se repetem em muitas protenas em diferentes contextos estruturais; isto , diferentes protenas modulares podem misturar e unir conjuntos de domnios. Por exemplo, a bronectina, uma protena extracelular bastante grande, envolvida na adeso e migrao celular, contm 29 domnios, inclusive repeties em tandem* de trs tipos de domnios chamados F1, F2 e F3. um arranjo linear da forma (F1)6(F2)2(F1)3(F3)15(F1)3. Os domnios da bronectina tambm aparecem em outras protenas modulares. (Ver http://www. bork.embl-heidelberg.de/Modules/ para ilustraes e nomenclatura.)

Classicao de estruturas de protenas


A classicao mais geral de famlias de estruturas de protenas baseada nas suas estruturas secundrias e tercirias.
Classe Hlice Folha + / / linear Barril / Pouca ou nenhuma estrutura secundria Caracterstica Estrutura secundria composta exclusivamente ou em sua maioria por hlices Estrutura secundria composta exclusivamente ou em sua maioria por folhas Hlices e folhas separadas em partes diferentes da molcula; ausncia da estrutura supersecundria -- Hlices e folhas dispostas a partir de unidades -- Uma linha passando pelos centros das tas da folha aproximadamente linear Uma linha passando pelos centros das tas da folha aproximadamente circular

* N. de T. Repeties em tandem so repeties dispostas uma atrs da outra.

Introduo Bioinformtica

65

Dentro dessas categorias gerais, as protenas apresentam uma grande variedade de padres de enovelamento. Entre protenas com padres de enovelamento similar, existem famlias que compartilham caractersticas em suas estruturas, seqncias e funes, sucientes para sugerir uma relao evolucionria. Entretanto, protenas no relacionadas apresentam, freqentemente, estruturas similares. A classicao de estruturas de protenas ocupa uma posio fundamental na bioinformtica, no sendo apenas uma ponte entre seqncia e funo. Retornaremos a este tema para descrever resultados e stios de interesse na web. Por enquanto, as ilustraes seguintes, um lbum de algumas estruturas pequenas, fornecem uma oportunidade para praticar a anlise visual e o reconhecimento de padres espaciais importantes (Figura 1.10).
(a)

(b)

(c)

Figura 1.10

Continua.

66

Arthur M. Lesk
(d)

(e)

(f)

Figura 1.10

Continua.

Introduo Bioinformtica
(g)

67

(h)

(i)

Figura 1.10

Continua.

68

Arthur M. Lesk
(j)

(k)

(l)

Figura 1.10

Continua.

Introduo Bioinformtica
(m)

69

(n)

(o)

Figura 1.10 Um lbum de estruturas de protenas. (a) Homeodomnio [cdigo PDB: 1ENH]. (b) Segundo domnio homlogo calponina da utrona [cdigo PDB: 1BHD]. (c) Domnio de ligao ao DNA da protena HIN recombinase (protena em preto, DNA em vermelho) [cdigo PDB: 1HCR). (d) Citocromo c do embrio de arroz [cdigo PDB: 1CCR]. (e) Mdulo de adeso celular tipo III-10 da bronectina [cdigo PDB: 1FNA]. (f ) Aglutinina manose especca (lectina) [cdigo PDB: 1NPL]. (g) Domnio principal da protena TBP (TATA-Box-binding protein preto) de ligao ao DNA (vermelho) [cdigo PDB: 1CDW]. (h) Barnase [cdigo PDB: 1BRN]. (i) Lisil-tRNA sintetase [cdigo PDB: 1BBW]. (j) Citalone desidratase [cdigo PDB: 3STD]. (k) Domnio de ligao ao NAD da lcool desidrogenase. NAD em vermelho. [cdigo PDB: 1EE2]. (l) Adenilato cinase [cdigo PDB: 3ADK]. (m) Receptor quimiottico da metiltransferase [cdigo PDB:1AF7]. (n) Tiamina fosfato sintase [cdigo PDB: 2TPS]. (o) Polipeptdeo espasmoltico pancretico de sunos [cdigo PDB: 2PSP].

70

Arthur M. Lesk
A IO D W

ST

EB

Recursos na web: Estruturas macromoleculares O Worldwide PDB (wwPDB) uma colaborao entre trs projetos de bancos de dados primrios para integrar o arquivamento e a distribuio de estruturas macromoleculares biolgicas: O Protein Data Bank (PDB) (Estados Unidos) O Macromolecular Structure Database (MSD) (no European Bioinformatics Institute (EBI) Hinxton, Reino Unido) O Protein Data Bank /Japan (Osaka, Japo) Os stios wwPDB aceitam depsitos, processam novas entradas e mantm os arquivos. Outros bancos de dados reorganizam e fornecem o acesso aos dados, incluindo: O Structural Classication of Proteins (SCOP), um banco de dados, meticulosamente organizado, de todos os domnios de protenas, classicados de acordo com estrutura, funo e evoluo. O Molecular Modeling Database (MMDB), um projeto do sistema NCBI ENTREZ, que disponibiliza estruturas macromoleculares determinadas experimentalmente. Estes e muitos outros stios fornecem ferramentas de pesquisa para identicar estruturas de interesse. Por exemplo, para localizar uma protena de interesse no SCOP o usurio pode percorrer a hierarquia estru, tural ou pesquisar com palavras-chave, como o nome da protena, seu cdigo PDB, a funo (incluindo o nmero de classicao da Comisso de Enzimas) e o nome do enovelamento ou topologia (por exemplo, barril). Para cada estrutura, o SCOP fornece informaes textuais (incluindo o texto completo da entrada), ilustraes e conexes para outros bancos de dados. Naturalmente, existe uma grande sobreposio entre os stios. Cada qual com seus pontos fortes, baseados, muitas vezes, no interesse cientco dos pesquisadores contribuintes. Por exemplo, o Macromolecular Structure Database no European Bioinformatics Institute mantm o stio Protein Quaternary Structure, que fornece o provvel modo de associao de protenas oligomricas no seu estado biologicamente ativo. Stios diferentes tambm tm aparncia e utilidade distintas; so os usurios que iro descobrir suas prprias preferncias.

CIA

AS

SO

Acompanhe o percurso das cadeias visualmente, reconhecendo hlices e folhas . (As listras anguladas, preenchendo as estruturas, indicam a direo da cadeia.) Voc consegue ver estruturas supersecundrias? Em quais das classes estruturais estas protenas podem ser agrupadas? (Ver Exerccios 1.13 e 1.14 e Problema 1.2.) Muitos outros exemplos aparecem nos livros Introduction to Protein Architecture: The Structural Biology of Proteins e Introduction to Protein Science: Architecture, Function and Genomics.

Introduo Bioinformtica

71

Predio e engenharia da estrutura de protenas


A seqncia de aminocidos de uma protena determina sua estrutura tridimensional. Em um meio com solvente e em condies de temperatura adequados, como o interior celular, as protenas enovelam-se espontaneamente para atingir seus estados ativos. As chaperonas ajudam as protenas a se enovelarem corretamente, porm catalisando o processo em vez de conduzi-lo. Se a seqncia de aminocidos contm informao suciente para especicar a estrutura tridimensional de protenas, deveria ser possvel o desenvolvimento de um algoritmo capaz de predizer a estrutura de uma protena a partir de sua seqncia de aminocidos. Isso tem se mostrado bastante difcil. Como conseqncia, alm de tentar a soluo deste problema fundamental da predio de estruturas de protenas a partir de sua seqncia de aminocidos, os cientistas deniram objetivos menos ambiciosos: 1. Predio da estrutura secundria Quais segmentos de uma protena formam hlices e quais formam tas ou folhas ? 2. Reconhecimento de padro de enovelamento Dada uma biblioteca de estruturas conhecidas de protenas e suas seqncias de aminocidos, e a seqncia de aminocidos de uma protena de estrutura desconhecida, podemos encontrar a estrutura na biblioteca que tenha a maior probabilidade de apresentar um padro de enovelamento similar ao da protena de estrutura desconhecida? 3. Modelagem por homologia Suponha que uma protena-alvo, de seqncia de aminocidos conhecida mas de estrutura indeterminada, esteja relacionada com uma ou mais protenas de estrutura conhecida. Ento, esperamos que uma grande parte da estrutura da protena-alvo se parea com aquela da protena conhecida, e esta, portanto, pode servir de base para um modelo da estrutura da protena-alvo. A preciso e a qualidade dos resultados dependem fundamentalmente da similaridade entre as seqncias. Como regra prtica, se as seqncias de duas protenas homlogas possuem identidade entre resduos igual ou superior a 50% em um alinhamento timo, as suas estruturas provavelmente sero similares em mais de 90% do modelo. (Esta uma estimativa conservadora, como mostra a ilustrao a seguir.) Aqui podemos ver o alinhamento das seqncias e a sobreposio das estruturas de duas protenas relacionadas, a lisozima da clara de ovo (em preto no diagrama de estruturas) e a -lactalbumina de babunos (em vermelho no diagrama de estruturas). As seqncias so fortemente relacionadas (37% de resduos idnticos no alinhamento das seqncias), e as estruturas so bastante similares. Cada protena serviria como um bom molde para a outra, pelo menos no que diz respeito orientao da cadeia principal.

Lisozima de galinha -lactalbumina de babuno Lisozima de galinha -lactalbumina de babuno Lisozima de galinha -lactalbumina de babuno

72

Arthur M. Lesk

Critical Assessment of Structure Prediction (CASP)


A avaliao das tcnicas de predio de estruturas de protenas realizada por meio de testes s cegas. Com este objetivo, J. Moult iniciou os programas CASP (Critical Assessment of Structure Prediction) bianuais. Cristalgrafos e espectroscopistas de NMR a caminho da determinao da estrutura de uma protena so convidados a (1) publicarem a seqncia de aminocidos das protenas vrios meses antes da data esperada para a concluso de seus experimentos e (2) se comprometerem em manter seus dados em sigilo at uma data marcada. Grupos que trabalham com predio de estruturas submetem seus modelos, os quais so mantidos at a liberao da estrutura experimental. Ento, os dados de predio e os dados experimentais so comparados para o deleite de poucos e o aborrecimento da maioria. Os resultados das avaliaes do CASP registram o progresso na eccia das predies, o que ocorreu em parte por causa do crescimento dos bancos de dados, mas, tambm, como conseqncia dos aprimoramentos nos mtodos de predio. Discutiremos a predio de estrutura de protenas no Captulo 5.

Engenharia de protenas
Os bilogos moleculares costumavam ser como os astrnomos podamos observar nossos objetos de estudo, mas no modic-los. Isso no mais a realidade. possvel manipular aminocidos e cidos nuclicos vontade em laboratrios. Podemos test-los por meio de mutaes exaustivas para ver os efeitos na funo. Podemos dar novas funes a velhas protenas, como no desenvolvimento de anticorpos catalticos. Podemos, at mesmo, criar novas protenas. Muitas das regras sobre a estrutura de protenas foram derivadas da observao de protenas de ocorrncia natural. Essas regras no se aplicam, necessariamente, s protenas engenhadas. Protenas naturais tm caractersticas determinadas pelos princpios gerais da fsico-qumica e pelo mecanismo de evoluo das protenas. As protenas engenhadas devem obedecer aos princpios fsicoqumicos, mas no s restries da evoluo. Com as protenas engenhadas, podemos explorar novos territrios.

Protemica
O proteoma, em analogia ao genoma, o conjunto de protenas de um organismo. A protemica combina identicao, distribuio, interaes, dinmica e padres de expresso das protenas de sistemas vivos. R. Simpson criou a analogia: se o genoma uma lista dos instrumentos em uma orquestra, as protenas so a orquestra executando uma sinfonia. um assunto que envolve um grande volume de informaes e que depende de tcnicas rpidas de coleta de dados em larga escala. Entre essas tcnicas encontram-se a anlise com microarranjos de DNA e a espectrometria de massa.

Introduo Bioinformtica

73

Microarranjos de DNA

Ver Quadro ApliMicroarranjos de DNA, ou chips de DNA, so instrumentos para testar, simul- caes de microtaneamente, a presena de muitas seqncias de DNA. Microarranjos de DNA arranjos de DNA. podem ser utilizados para (1) determinar padres de expresso de diferentes protenas pela deteco de mRNAs; ou (2) genotipar, pela deteco de diferentes seqncias de genes variantes, incluindo mas no se limitando aos polimorsmos de um nico nucleotdeo (SNPs). possvel medir uma simples presena ou ausncia de SNPs, ou quanticar a abundncia relativa. Do ponto de vista da bioinformtica, os microarranjos de DNA so, de fato, outra fonte prolca de gerao de dados. Eles demandam planejamento ecaz de arquivos de dados e de sistemas de processamento de informaes. Uma vantagem que os dados so todos to novos que este campo de pesquisa no est sobrecarregado com estruturas de dados e formatos baseados em geraes mais antigas de hardware e programas de computadores.

Aplicaes de microarranjos de DNA Identicao da individualidade gentica em tecidos ou organismos Em humanos e animais, microarranjos de DNA permitem a correlao entre gentipo e suscetibilidade a doenas. Em bactrias, permitem a identicao dos mecanismos de desenvolvimento de resistncia a frmacos por patgenos. Investigao de estados e processos celulares Padres de expresso que mudam com o estado da clula ou condies de crescimento podem fornecer pistas sobre os mecanismos de esporulao, ou sobre a mudana entre os estados aerbios e anaerbios do metabolismo. Diagnstico de doenas Testes para a presena de mutaes podem conrmar o diagnstico de uma doena gentica suspeita. A deteco de portadores pode auxiliar no aconselhamento familiar. Sinais de alerta genticos Algumas doenas no so determinadas de forma total e irrevogvel pelo gentipo, mas pela probabilidade de o seu desenvolvimento estar relacionado com genes ou seus padres de expresso. Uma pessoa consciente do maior risco de desenvolver uma doena pode, em alguns casos, melhorar seu prognstico com ajustes em seu estilo de vida ou, em outras doenas, com cirurgias prolticas. Seleo de frmacos Deteco de fatores genticos que determinam respostas a fmacos, que em alguns pacientes tornam o tratamento ineciente, e em frmacos causam reaes adversas incomuns graves. Diagnstico especializado de doenas Tipos diferentes de leucemia podem ser identicados por padres diferentes de expresso gnica. O conhecimento do tipo exato de doena importante para o prognstico e para a escolha do tratamento adequado. Seleo de alvos para o planejamento de frmacos Protenas que apresentam transcrio exacerbada, em condies particulares de uma doena, podem ser boas candidatas para tentativas de interveno farmacolgica.

74

Arthur M. Lesk

Aplicaes de microarranjos de DNA (continuao)

Resistncia de patgenos A comparao de gentipos ou de padres de expresso, entre cepas de bactrias suscetveis e resistentes a um antibitico, indica as protenas envolvidas nos mecanismos de resistncia. Acompanhamento das variaes temporais no padro de expresso de protenas Este acompanhamento permite medir (1) o tempo de resposta a infeces por patgenos, (2) respostas a alteraes ambientais e (3) mudanas que ocorrem durante o ciclo celular.

Espectrometria de massa
A espectrometria de massa uma tcnica fsica que caracteriza molculas pela mensurao das massas de seus ons. As aplicaes na rea da protemica incluem: A identicao rpida de componentes de uma mistura complexa de protenas. O seqenciamento de protenas e cidos nuclicos. A anlise de modicaes ps-traducionais, ou de substituies relativas a uma seqncia esperada. O monitoramento da troca hidrognio-deutrio para revelar a exposio ao solvente de diferentes stios da protena. Isso fornece informaes sobre a conformao esttica e dinmica incluindo enovelamento e interaes.

Biologia de sistemas
O lema da biologia de sistemas integrao. Bilogos moleculares passaram um sculo estudando as clulas separadamente puricando protenas individualmente e avaliando suas propriedades isoladamente. Nosso trabalho agora unir todas estas informaes novamente. A integrao possui dois aspectos. Um o estudo de padres em uma clula ou em um organismo: padres de interao protena-protena e protena-cidos nuclicos, padres de vias metablicas e cascatas de controles, e padres de expresso de protenas. Os padres possuem tanto aspectos estticos quanto dinmicos. A identicao de pares de protenas que se ligam uma outra e o agrupamento das interaes entre esses pares de protenas em uma via produzem um padro esttico. O uxo de metablitos atravs de uma rede de enzimas ou o uxo de informao ao longo de uma cascata de controle so padres dinmicos. O outro aspecto da integrao a comparao de ocorrncia, atividades e interaes de genes e protenas atravs de espcies diferentes. A razo pela qual a metodologia comparativa to poderosa na biologia que estamos tentando entender sistemas que surgiram por meio de processos evolucionrios. Espcies diferentes podem esclarecer fatos umas das outras. Para compreender o que signica ser humano, devemos apreciar tanto o que temos em comum com outras espcies quanto o que nos diferencia delas. Tcnicas rpidas de produo de dados em larga escala em genmica e protemica fornecem informaes sobre seqncias, padres de expresso e de interaes. A partir da seqncia de genomas, podemos inferir as seqncias de aminocidos de todas as protenas de um organismo. A protemica nos diz como os padres de expresso dessas protenas variam em um organismo, como eles se alteram durante o desenvolvimento ou em resposta a mudanas nas condies

Introduo Bioinformtica

75

ambientais, e como as protenas cooperam entre si. A biologia de sistemas une essas informaes como as peas de um quebra-cabea que se estende no tempo e no espao. Para compreender este agente complexo e delicado que uma clula viva, precisamos encaixar todas as peas em seus devidos lugares.

Implicaes clnicas
Existe um consenso de que o seqenciamento do genoma humano e de outras espcies vai melhorar a sade da humanidade. Mesmo desconsiderando as pretenses mais exageradas a publicidade sensacionalista dura uma eternidade as categorias de aplicaes incluem: 1. Diagnstico de doenas e de riscos de doenas O seqenciamento do DNA pode detectar a ausncia de um gene particular, ou de uma mutao. A identicao de seqncias gnicas especcas associadas a doenas permitir diagnsticos rpidos e conveis de estados de sade precrios (a) quando o paciente apresentar sintomas, (b) antes que os sintomas apaream, como em testes para condies hereditrias de manifestao tardia, como a doena de Huntington (ver Quadro, pgina 76), (c) para o diagnstico in utero de potenciais anormalidades como a brose cstica, e (d) para o aconselhamento gentico de casais que pretendem ter lhos. Em muitos casos, os nossos genes no nos condenam ao desenvolvimento de uma dada doena de maneira irrevogvel, mas aumentam a probabilidade de que isso ocorra. Um exemplo de fator de risco detectvel em nvel gentico envolve a 1-antitripsina, uma protena que normalmente atua na inibio da elastase nos alvolos pulmonares. Indivduos homozigotos para o mutante Z da 1-antitripsina (342GluLis) expressam apenas uma protena disfuncional. Esses indivduos tm maior risco de desenvolver ensema, por causa dos danos causados aos pulmes pela elastase endgena que, normalmente, seria regulada pela atividade inibitria, e tambm de doenas hepticas, causadas pelo acmulo da forma polimrica da 1-antitripsina nos hepatcitos onde so sintetizadas. O hbito de fumar favorece, com certeza, o desenvolvimento de ensema. No caso de indivduos homozigotos para o mutante Z, a doena se desenvolve como uma combinao de fatores genticos e ambientais. Geralmente a relao entre o gentipo e fatores de risco de doenas muito mais difcil de ser determinada. Algumas doenas, como a asma, dependem das interaes de muitos genes, assim como de fatores ambientais. Em outros casos, o gene pode estar presente e ntegro, mas mutaes em outros locais do genoma podem alterar seus nveis de expresso ou sua distribuio nos tecidos. Essas anomalias devem ser detectadas pela medio da atividade protica. A anlise de padres de expresso de protenas tambm uma forma importante de medir a resposta ao tratamento. 2. A gentica de respostas terapia tratamento personalizado Uma vez que as pessoas diferem em suas capacidades de metabolizar frmacos, pacientes diferentes com a mesma doena podem necessitar de dosagens diferentes. A anlise de seqncias permite selecionar frmacos e dosagens timas para cada paciente, um campo de pesquisa em rpido desenvolvimento denominado farmacogenmica. Os mdicos podem, assim, evitar a experimentao de diferentes terapias, um procedimento que perigoso em termos de efeitos colaterais muitas vezes fatal e, em todo caso, oneroso. O tratamento de pacientes por reaes adversas a frmacos prescritos custa bilhes de dlares aos sistemas de sade.

A gentica carrega a arma e o ambiente puxa o gatilho J. Stern

76

Arthur M. Lesk

Por exemplo, a 6-mercaptopurina, um frmaco extremamente txico, utilizado no tratamento de leucemia infantil. Uma pequena frao dos pacientes costumava morrer em funo desse tratamento, pois no possua a enzima tiopurina metiltransferase, necessria para metabolizar o frmaco. O teste de pacientes para a presena ou ausncia dessa enzima identica aqueles sob risco. De maneira inversa, pode tambm se tornar possvel o uso de frmacos que so seguros e ecazes em uma minoria de pacientes, mas que foram rejeitados antes ou durante os testes clnicos por no serem ecazes, ou por apresentarem efeitos colaterais na maioria dos pacientes. A doena de Huntington A doena de Huntington um distrbio neurodegenerativo hereditrio que afeta aproximadamente 30.000 pessoas nos Estados Unidos. Seus sintomas so bastante graves, incluindo movimentos involuntrios semelhantes a passos de dana (coricos), transtornos mentais, mudanas de personalidade e diminuio da capacidade intelectual. A morte ocorre cerca de 10 a 15 anos aps o incio dos sintomas. O gene surgiu na Nova Inglaterra durante o perodo colonial, no sculo XVII. Alguns casos de bruxaria da poca podem estar relacionados doena. O gene no foi eliminado da populao, pois a idade em que se manifesta entre 30 e 50 anos ocorre aps o perodo reprodutivo tpico. Antigamente, membros de famlias afetadas no tinham alternativa a no ser encarar a incerteza e o medo, durante a juventude e o incio da vida adulta, de no saber se haviam herdado a doena. A descoberta do gene da doena de Huntington em 1993 tornou possvel identicar indivduos afetados. O gene contm repeties expandidas do trinucleotdeo CAG, correspondentes a blocos de poliglutamina na protena correspondente, a huntingtina. (A doena de Huntington uma de uma famlia de doenas neurodegenerativas que resultam da repetio de trinucleotdeos.) Quanto maiores os blocos de CAG, mais cedo os sintomas se manifestam e em maior intensidade. O gene normal contm entre 11 e 28 repeties CAG. Pessoas que apresentam entre 29 e 34 repeties tm baixa probabilidade de desenvolver a doena, e aquelas que apresentam entre 35 e 41 repeties podem desenvolver sintomas relativamente moderados. Entretanto, pessoas com mais de 41 repeties quase certamente sofrero da doena de Huntington em sua forma mais grave. A herana marcada pelo fenmeno chamado de antecipao: as repeties aumentam em geraes sucessivas, aumentando progressivamente a gravidade da doena e reduzindo a idade de sua manifestao. Por alguma razo, este efeito maior em genes paternos do que em genes maternos. Dessa forma, mesmo pessoas que cam na regio limtrofe, que podem carregar um gene que contenha entre 29 e 41 repeties, deveriam ser aconselhadas sobre os riscos para os seus lhos. 3. Identicao de alvos para frmacos Um alvo uma protena cuja funo pode ser modicada de maneira seletiva pela interao com um frmaco para afetar os sintomas ou as causas de uma doena. A identicao de um alvo dene o foco dos passos subseqentes no processo de planejamento de frmacos. Dentre os frmacos em uso atualmente, o alvo de cerca da metade so receptores, perto de um quarto so enzimas e quase um quarto so hormnios. Aproximadamente 7% atuam em alvos desconhecidos.

Introduo Bioinformtica

77

O crescimento da resistncia de bactrias ao tratamento com antibiticos est gerando uma crise no controle de doenas. H uma possibilidade bastante real de que nossos descendentes venham a olhar para a segunda metade do sculo XX como um curto perodo de tempo durante o qual as infeces bacterianas podiam ser controladas e, antes e depois do qual, elas no podiam. A urgncia em encontrar novos frmacos mitigada pela crescente disponibilidade de dados que podem servir de base para o seu desenvolvimento. A genmica pode sugerir alvos. A genmica diferencial e a comparao de padres de expresso de protenas entre cepas de bactrias patognicas resistentes e suscetveis a frmacos podem apontar as protenas responsveis pela resistncia a frmacos. O estudo de alterao na expresso gnica entre clulas normais e clulas de tumores pode identicar protenas expressas diferencialmente como alvos potenciais para frmacos anticncer. 4. Terapia gnica Se um gene est ausente ou defeituoso, gostaramos de poder restitu-lo, ou ao menos suprir o seu produto. Se um gene est superativado, gostaramos de poder desativ-lo. O suprimento direto de protenas possvel em muitas doenas, das quais a reposio de insulina no diabetes e a de fator VIII para uma forma comum de hemolia talvez sejam os exemplos mais conhecidos. A transferncia gentica em animais foi bem-sucedida para a produo de protenas humanas no leite de ovelhas e de vacas. Em pacientes humanos, a terapia de reposio gnica para casos de brose cstica, utilizando adenovrus, mostrou resultados encorajadores. Um mtodo para o bloqueio de genes chamado de terapia anti-senso. A idia introduzir uma seqncia curta de DNA ou de RNA que se liga de forma seqncia-especca em uma regio do gene. A ligao ao DNA endgeno pode interferir com a sua transcrio; a ligao ao mRNA pode interferir com a sua traduo. A terapia anti-senso mostrou alguma eccia contra o citomegalovrus e a doena de Crohn. A terapia anti-senso bastante atrativa, pois, indo diretamente ao bloqueio da seqncia-alvo, diminui muitas etapas do processo de planejamento de frmacos.

O futuro
O novo sculo ver uma revoluo no desenvolvimento e no oferecimento de sistemas de amparo sade. As barreiras entre a pesquisa terica e a prtica clnica esto diminuindo. possvel que um leitor deste livro descubra a cura para uma doena que poderia mat-lo. Inclusive, bastante provvel que a frase espirituosa de Szent-Gyorgi, O cncer ajuda mais as pessoas do que mata se torne verdadeira. Espera-se que isso acontea porque as instituies de pesquisa tiveram sucesso no desenvolvimento de medidas teraputicas ou preventivas contra tumores em vez de simplesmente imitar o seu crescimento descontrolado.

Leituras recomendadas
Um vislumbre do futuro?
Blumberg, B. S. (1996), Medical research for the next millenium, The Cambridge Review, 117, 3-8. [Uma predio fascinante do que est por vir, e do que j est acontecendo.]

O cenrio intelectual
Mayr, E., What Makes Biology Unique? Considerations on the Autonomy of a Scientic Discipline. (Cambridge: Cambridge University Press, 2004). [Perspectivas da biologia, por um cientista que se autodescreveu como um bilogo de unhas sujas, com uma clareza de pensamento sem igual.]

78

Arthur M. Lesk

Sobre o contexto geral da biologia


Doolittle, W. F. (2000), Uprooting the tree of life, Sci. Am., 282(2), 90-95. [Implicaes da anlise de seqncias para a nossa compreenso das relaes entre os organismos vivos.]

Determinao de seqncias genmicas


Green, E. D. (2001), Strategies for systematic sequencing of complex organisms, Nature Reviews (Genetics), 2, 573-583. [Uma discusso clara de possveis mtodos para projetos de seqenciamento em larga escala. Inclui listas de, e conexes para, projetos em andamento de seqenciamento de organismos multicelulares.] Sulston, J. & Ferry, G., The Common Thread: a story of science, politics, ethics and the human genome (New York: Bantam, 2002). [Um relato de primeira mo e pessoal sobre uma das maiores operaes cientcas internacionais j realizadas, o seqenciamento do genoma humano.]

Discusses sobre bancos de dados e recuperao de informaes


Altschul, S. F., Madden, T. L., Schffer, A. A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D. J. (1997), Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acids Res., 25, 3389-3402. Frishman, D., Heumann, K., Lesk, A. & Mewes, H. -W. (1998), Comprehensive, comprehensible, distributed and intelligent databases: Current status, Bioinformatics, 14, 551-561. Wheeler, D. L., Church, D. M., Federhen, S., Lash, A. E., Madden, T. L., Pontius, J. U., Schuler, G. D., Schriml, L. M., Sequeira, E., Tatusova, T. A. & Wagner, L. (2003), Database resources of the National Center for Biotechnology, Nucleic Acids Res., 31, 28-33. Lesk, A. M. and 25 co-authors, (2000), Quality control in databanks for molecular biology, BioEssays, 22, 1024-1034. Stein, L. (2001), Genome annotation: from sequence to biology, Nature Reviews (Genetics), 2, 493-503. Lesk, A. M., Editor, Database Annotation in Molecular Biology: Principles and Practice (Chichester: J. Wiley and Sons, 2004). [Um conjunto de artigos descrevendo o qu os bancos de dados requerem no que diz respeito anotao, e quais tipos de habilidades so necessrias para os especialistas em anotao.]

Protenas
Branden, C. I. & Tooze, J., Introduction to Protein Structure (2nd edn. New York: Garland, 1999). [Um texto introdutrio de excelente qualidade.] Lesk, A. M., Introduction to Protein Architecture: The Structural Biology of Proteins (Editora original deste livro, 2000). Lesk, A. M., Introduction to Protein Science: Architecture, Function and Genomics (Editora original deste livro, 2004). [Volumes que acompanham o livro Introduo Bioinformtica, com foco em estrutura, funo e evoluo de protenas.]

A transio para a publicao eletrnica


Lesk. M., Understanding Digital Libraries (2nd edn. San Francisco: Morgan Kaufmann, 2004). [Introduo transio de bibliotecas tradicionais para a proviso de informaes pelo computador.] Berners-Lee, T. (with Mark Fischetti), Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web (New York: HarperBusiness, 2000). Berners-Lee, T. & Hendler, J. (2001), Publishing on the semantic web, Nature, 410, 1023-1024. [Um artigo escrito pelo inventor da web.] Butler, D. & Campbell, P (2001), Future e-access to the primary literature, Nature, 410, 613. [Um . artigo que descreve os desenvolvimentos na publicao eletrnica de peridicos cientcos.] Malakoff, D. (2003), Scientic publishing Opening the books on open access, Science, 302, 550-554. [Uma descrio dos peridicos publicados pela Public Library of Science (PLoS).] Spedding V. (2003), Great data, but will it last? Research Information (Spring 2003) 16-20. [Artigo abordando os problemas de preservao da informao digital. Este peridico possui muitos artigos de interesse para cientistas cuja pesquisa depende da qualidade dos dados e sua acessibilidade por meio de computadores.]

Aspectos legais
Human Genome Project Information Website: Genetics and Patenting http://www.ornl.gov/hgmis/elsi/patents.html Bobrow, M. & Thomas, S. (2002), Patenting DNA, Curr. Opin. Mol. Ther., 4, 542547. F. S. Kieff, ed. (2003), Perspectives on Properties of the Human Genome Project, Adv. Genetics, vol. 50. [Uma coleo de artigos discutindo aspectos legais de genmica e bioinformtica.]

Introduo Bioinformtica

79

Exerccios, problemas e weblemas


Exerccios
1.1 (a) O Sloan Digital Sky Survey um mapeamento do cu do hemisfrio norte por um perodo de cinco anos. O total de dados brutos chegar a cerca de 15 terabytes (1 byte = 1 caractere, 1TB = 1012 bytes). A quantos projetos genoma este volume de dados equivale? (b) O Earth Observing System/Data Information System (EOS/DIS) uma srie de observaes globais de longo prazo da Terra exige aproximadamente 15 petabytes de dados armazenados (1 petabyte = 1015 bytes). A quantos projetos genoma este volume de dados equivale? (c) Compare o volume para armazenamento de dados necessrios para o EOS/DIS com o volume de dados necessrios para armazenar as seqncias completas de DNA de todos os habitantes dos Estados Unidos. (Ignore os meios de compresso de dados utilizados para o armazenamento de arquivos. Suponha que a seqncia de DNA de cada pessoa exija 1 byte/ nucleotdeo.) 1.2 (a) Quantos disquetes seriam necessrios para armazenar o genoma humano completo? (b) Quantos CDs seriam necessrios para armazenar o genoma humano completo? (c) Quantos DVDs seriam necessrios para armazenar o genoma humano completo? (Em todos os casos, suponha que a seqncia seja armazenada a um byte por caractere, sem compresso.) 1.3 Suponha que voc vai preparar o quadro sobre a doena de Huntington (pgina 76) para um stio na web. Para quais palavras ou frases voc forneceria conexes? 1.4 O nal do gene -hemoglobina humano possui a seqncia de nucleotdeos:
... ctg gcc cac aag tat cac taa

(a) Qual a traduo desta seqncia em uma seqncia de aminocidos? (b) Escreva a seqncia de nucleotdeos com uma nica alterao de base que produza uma mutao silenciosa nesta regio. (Uma mutao silenciosa aquela que no altera a seqncia de aminocidos.) (c) Escreva a seqncia de nucleotdeos, e a traduo em seqncia de aminocidos, com a alterao de uma nica base, produzindo uma mutao no-sinnima na regio. (d) Escreva a seqncia de nucleotdeos, e a traduo em seqncia de aminocidos, com a alterao de uma nica base, produzindo uma mutao nesta regio que levaria ao truncamento precoce da protena. (e) Escreva a seqncia de nucleotdeos com a alterao de uma nica base, produzindo uma mutao nesta regio que levaria terminao imprpria da cadeia, originando uma extenso da protena. 1.5 Em uma fotocpia do Quadro Alinhamento de seqncia par a par completo das protenas PAX-6 humana e eyeless de Drosophila melanogaster, indique com uma caneta marca-texto as regies alinhadas pelo PSI-BLAST. 1.6 Em uma cpia do alinhamento da protena PAX-6 humana e eyeless de Drosophila melanogaster (pgina 57), marque as regies alinhadas protena evenskipped pelo PSI-BLAST. 1.7 (a) Que valores de corte de E voc usaria em uma pesquisa com o PSIBLAST se tudo o que voc deseja saber se a sua seqncia j est no banco de dados? (b) Que valores de corte de E voc usaria em uma pesquisa com o PSIBLAST se voc deseja localizar homlogos distantes de sua seqncia?

80

Arthur M. Lesk

1.8 No desenho de uma seqncia anti-senso, estime o comprimento mnimo necessrio para evitar uma complementaridade exata com regies aleatrias do genoma humano. 1.9 Sugere-se que todos os seres humanos vivos sejam descendentes de um ancestral comum chamado Eva, que teria vivido entre aproximadamente 140.000 e 200.000 anos atrs. (a) Assumindo que haja seis geraes por sculo, quantas geraes existem entre Eva e o presente? (b) Se uma clula bacteriana se divide a cada 20 minutos, quanto tempo levaria para a bactria passar por este mesmo nmero de geraes? 1.10 Indique um aminocido que tenha caractersticas fsico-qumicas semelhantes (a) leucina, (b) ao cido asprtico, (c) treonina. Esperamos que tais substituies, na maioria dos casos, tenham efeitos relativamente pequenos na estrutura e funo de uma protena. Indique um aminocido que tenha caractersticas fsico-qumicas bastante distintas (a) da leucina, (b) do cido asprtico, (c) da treonina. Essas substituies deveriam ter um efeito drstico na estrutura e funo de uma protena, especialmente se ocorrerem no seu interior. 1.11 Na Figura 1.7 (a), a direo da cadeia no sentido N-terminal para C-terminal aponta para cima ou para baixo na pgina? Na Figura 1.7 (b), a direo da cadeia no sentido N-terminal para C-terminal aponta para cima ou para baixo na pgina? 1.12 Analisando a Figura 1.9, quantas vezes a cadeia passa entre os domnios da protena ribossomal L1 de M. jannaschii? 1.13 Em uma fotocpia da Figura 1.10 (k e l), indique com uma caneta marcatexto as hlices (em vermelho) e as tas de folha (em azul). Em uma fotocpia da Figura 1.10 (g e m), divida a protena em domnios. 1.14 Qual das estruturas mostradas na Figura 1.10 contm o seguinte domnio?

1.15 Em uma fotocpia da superposio das estruturas da lisozima de galinha e da -lactalbumina de babuno, indique com uma caneta marca-texto duas regies nas quais as conformaes das cadeias principais so diferentes. 1.16 No programa PERL da pgina 40, estime a frao do texto do programa que contm comentrios (conte linhas inteiras e pela metade). 1.17 Modique o programa PERL que extrai o nome das espcies do arquivo de sada do PSI-BLAST para que ele tambm aceite nomes no formato [D. melanogaster].

Introduo Bioinformtica

81

1.18 Modique o programa PERL que extrai o nome das espcies do arquivo de sada do PSI-BLAST para que ele conte o nmero de seqncias de cada espcie ocorrendo na lista. 1.19 Qual a seqncia de nucleotdeos da molcula mostrada na Gravura I?

Problemas
1.1 A tabela seguinte contm um alinhamento mltiplo de seqncias parciais de uma famlia de protenas chamadas domnios ETS. Cada linha corresponde seqncia de aminocidos de uma protena, e cada letra corresponde a um aminocido. As colunas indicam qual aminocido est presente naquela posio em cada uma das protenas na famlia. Dessa forma, padres de preferncias se tornam visveis.

Em uma fotocpia desta pgina: (a) Utilizando canetas marca-texto coloridas, destaque, em cada seqncia, com diferentes cores, os resduos de diferentes classes: resduos pequenos: resduos apolares de tamanho mdio: resduos apolares grandes: resduos polares: resduos carregados positivamente: resduos carregados negativamente: GAST CPVIL FYMW HNQ KR DE

(b) Para cada posio que contenha o mesmo aminocido em todas as seqncias, escreva a letra que simboliza este aminocido, em letra maiscula, abaixo da coluna correspondente. Para cada posio que contenha o mesmo aminocido em todas as protenas, exceto uma, escreva a letra que simboliza este aminocido, em letra minscula, abaixo da coluna correspondente. (c) O que o padro de periodicidade dos resduos conservados sugere? (d) Que estruturas secundrias estes padres sugerem em certas regies? (e) Que distribuio de conservao de resduos carregados voc observa? Proponha (chute) o tipo de molcula com a qual estes domnios interagem.

82

Arthur M. Lesk

1.2 Classique as estruturas da Figura 1.10 de acordo com as seguintes categorias: hlices , folhas , +, / linear, barril /, pouca ou nenhuma estrutura secundria. 1.3 Generalize o programa PERL da pgina 38 para imprimir a traduo da seqncia de DNA em todas as seis fases de leitura possveis. 1.4 Escreva um programa PERL para ler um alinhamento do CLUSTAL-W, tal como o alinhamento do citocromo b mitocondrial de elefantes e mamute, e contar o nmero de malpareamentos entre todos os pares de protenas. 1.5 Para qual dos seguintes conjuntos de cadeias de fragmentos o programa PERL da pgina 40 funciona corretamente? (a) Ele recuperaria corretamente o texto:
Kate, when France is mine and I am yours, then yours is France and you are mine.

a partir de:
Kate, when France France is mine is mine and and I am\nyours yours then then yours is France France and you are mine\n

(b) Ele recuperaria corretamente o texto:


One woman is fair, yet I am well; another is wise, yet I am well; another virtuous, yet I am well; but till all graces be in one woman, one woman shall not come in my grace.

a partir de:
One woman is woman is fair, is fair, yet I am yet I am well; I am well; another another is wise, yet I am well; yet I am well; another virtuous, another virtuous, yet I am well; well; but till all all graces be be in one woman, one woman, one one woman shall shall not come in my grace.

(c) Ele recuperaria corretamente o texto:

Introduo Bioinformtica

83

That he is mad, tis true: tis true tis pity; And pity tis tis true.

a partir de:
That he is is mad, tis tis true true: tis true tis true tis tis pity;\n pity;\n And pity pity tis tis tis tis true.\n

Em (c), o programa funcionaria se toda a pontuao fosse removida das cadeias? 1.6 Generalize o programa PERL da pgina 40 para que ele agrupe corretamente todos os fragmentos de textos do problema anterior. (Ateno: este no um problema fcil.) 1.7 Escreva um programa PERL que encontre alinhamento de motivos como ilustrado no Quadro da pgina 46. (a) Exija alinhamento perfeito ou exato. (b) Permita um malpareamento, no necessariamente nas primeiras posies, como no exemplo, mas no permita inseres ou delees. 1.8 A programao em PERL pode ser bastante concisa. Esta uma verso alternativa do programa para montar fragmentos com sobreposio (ver pgina 40):

84

Arthur M. Lesk

(Este um bom exemplo do que evitar. Qualquer um que escreva cdigos como este deveria ser demitido imediatamente. A ausncia de comentrios, o cdigo complicado e a brevidade desnecessria tornam difcil a compreenso do que o programa est fazendo. Um programa escrito dessa forma se torna difcil de corrigir e praticamente impossvel de manter. possvel que algum dia voc suceda algum em uma tarefa e se depare com um programa como este. Voc ter minha compaixo.) (a) Faa uma cpia deste programa, e da verso original na pgina 40, de forma que apaream lado a lado na mesma folha. Onde for possvel, relacione as linhas deste programa com as linhas correspondentes do programa mais longo da pgina 40. (b) Prepare uma verso do programa conciso com comentrios sucientes para explicar melhor o que ele est fazendo (para isso voc poderia considerar os comentrios do programa original e adapt-los) e como est fazendo. No altere nenhuma das instrues executveis (nem na verso original ou em qualquer outra coisa); apenas adicione comentrios.

Weblemas
1.1 Identique a fonte de todas as citaes da pea de Shakespeare no alinhamento do Quadro da pgina 46. 1.2 Identique stios na web que forneam explicaes tutoriais elementares e/ ou demonstraes on-line (a) da reao em cadeia da polimerase (PCR Polymerase Chain Reaction), (b) do Southern blotting, (c) de mapas de restrio, (d) da rvore de suxos, (e) do algoritmo heapsort. Liste seus endereos eletrnicos (URLs). Escreva um pargrafo com explicaes destes termos baseadas nos stios encontrados. 1.3 A quais los pertencem as espcies seguintes? (a) Estrela-do-mar, (b) lampreia, (c) tnia, (d) rvore ginkgo, (e) escorpio, (f) gua-viva, (g) anmonado-mar. 1.4 Quais so os nomes comuns das seguintes espcies? (a) Acer rubrum, (b) Orycteropus afer, (c) Beta vulgaris, (d) Pyractomena borealis, (e) Macrocystis pyrifera. 1.5 Um caf-da-manh ingls tpico consiste em ovos (de galinha) fritos em banha de porco, bacon, arenque defumado, cogumelos grelhados, batatas fritas, tomates grelhados, feijo cozido, torradas e ch com leite. Escreva a taxonomia completa dos organismos a partir dos quais estes pratos so derivados. 1.6 Recupere e alinhe as seqncias do citocromo b de cavalo, baleia e canguru. (a) Compare o grau de similaridade para cada par de seqncias com o resultado da comparao das seqncias da ribonuclease pancretica destas espcies no Estudo de Caso 1.2. As concluses tomadas com base na anlise das seqncias do citocromo b so consistentes com as concluses tomadas com base na anlise da ribonuclease pancretica? (b) Compare a similaridade relativa destas seqncias com os resultados da comparao das seqncias da ribonuclease pancretica destas espcies no Estudo de Caso 1.2. As concluses tomadas com base na anlise das seqncias do citocromo b so consistentes com as concluses tomadas com base na anlise da ribonuclease pancretica?

Introduo Bioinformtica

85

1.7 Recupere e alinhe as seqncias da ribonuclease pancretica da baleia Sperm, do cavalo e do hipoptamo. Estes resultados so consistentes com as relaes observadas com base no uso dos SINES? 1.8 Observamos que as seqncias de aminocidos do citocromo b de elefantes e de mamute so bastante similares. Uma hiptese para explicar esta observao que o citocromo b funcional requer tantos resduos conservados que os citocromos b de todos os animais so similares uns aos outros, assim como as protenas dos elefantes e mamute. Teste esta hiptese obtendo as seqncias do citocromo b de outras espcies de mamferos, e verique se as seqncias de aminocidos do citocromo b de espcies pouco relacionadas, ou distantes, so to similares seqncia dos elefantes quanto o so as seqncias de elefantes e mamute. 1.9 Recupere e alinhe as seqncias do citocromo c de humanos, da cobra cascavel e do lagarto-monitor. Qual par de seqncias parece estar mais proximamente relacionado? Isto o surpreende? Por qu? Ou por que no? 1.10 Envie as seqncias da ribonuclease pancretica de cavalo, baleia-branca e canguru-vermelho (Estudo de Caso 1.2) para o servidor de alinhamentos mltiplos T-coffee: http://ch.embnet.org/software/TCoffee.html. O resultado do alinhamento o mesmo do resultado mostrado no Estudo de Caso 1.2, gerado pelo CLUSTAL-W? Se no for, qual a diferena? 1.11 Crie um alinhamento mltiplo de seqncias dos genes do citocromo b mitocondrial dos elefantes africano e indiano e do mamute siberiano. Quantos malpareamentos so observados em cada par de seqncias? Os resultados so consistentes com as concluses derivadas da comparao de seqncias de protenas, que armam que o mamute est mais proximamente relacionado ao elefante africano do que ao indiano? 1.12 Linnaeus dividiu o reino animal em seis classes: mamferos, aves, anfbios (incluindo rpteis), peixes, insetos e vermes. Isso implica, por exemplo, que ele considerou crocodilos e salamandras mais proximamente relacionados do que crocodilos e pssaros. Thomas Huxley, por outro lado, no sculo XIX, reuniu rpteis e aves em um mesmo grupo. Para trs protenas apropriadas com homlogas em crocodilos, salamandras e aves, determine a similaridade entre as seqncias homlogas. Quais pares de grupos de animais parecem estar mais proximamente relacionados? Quem estava certo, Linnaeus ou Huxley? 1.13 Quando a ltima espcie de primata foi descoberta? 1.14 Em quantas novas espcies foram descobertas homlogas da protena PAX-6 desde que a tabela da pgina 58 foi compilada? 1.15 Quais so as classicaes SCOP para as protenas da Figura 1.10 (a), (e), (g), (i), (l) e (o)? 1.16 Identique trs protenas modulares, alm da prpria bronectina, que contenham domnios bronectina III. 1.17 Encontre seis exemplos de doenas, alm do diabetes e da hemolia, que so tratveis diretamente pela administrao da protena ausente. Em cada caso, qual a protena administrada? 1.18 Pessoas portadoras de uma variante do gene da apolipoprotena E esto sob risco elevado de qual doena de manifestao tardia? Qual variante oferece o maior risco? O que se sabe sobre o mecanismo pelo qual essas variantes inuenciam o desenvolvimento da doena?

86

Arthur M. Lesk

1.19 Para aproximadamente 10% dos europeus, o analgsico codena inecaz, pois os pacientes no tm a enzima que converte a codena na sua molcula ativa, a morna. Qual a mutao mais comum que causa esta condio? 1.20 Encontre a pgina do SCOP encabeada por Protein: Thermopin from Thermobida fusca. (a) Qual o cdigo PDB desta protena? (b) A qual superfamlia esta protena pertence? (c) Qual homlogo da Thermopin de galinha possui estrutura conhecida? (d) Clicando nas conexes disponveis na pgina, v para aquela que apresenta o resumo (abstract) do artigo que descreve a determinao da estrutura. Quantos cliques existem no caminho mais curto para chegar a esta pgina? Quais so as URLs dos stios intermedirios neste caminho? 1.21 Os monotremados, dos quais o exemplo mais conhecido o ornitorrinco (Ornithorhynchus anatinus), formam uma ordem na classe mammalia. Apenas algumas espcies de monotremados so conhecidas. (a) Quais destes animais, se houver algum, encontram-se ameaados de extino? (b) Onde estes animais so encontrados na natureza? (c) Qual a natureza da ameaa atual sua sobrevivncia? (d) Quais seqncias gnicas, se houver alguma, de espcies de monotremados ameaados so conhecidas? (e) Suponha que voc queira seqenciar um gene de uma espcie de monotremado ameaada. Encontre um zoolgico que possua esta espcie.

Você também pode gostar