Bioinformatica

CURSO ON LINE
INTRODUO BIOINFORMTICA
Prof. Dr. Francisco Prosdocimi
2007
NDICE
CAPTULO 1 UMA VISO GLOBAL DA BIOINFORMTICA 1.1. O que a bioinformtica? 1.2. O surgimento da bioinformtica 1.3. O que preciso saber para ser um bom bioinformata? 1.4. Cursos de ps-graduao em bioinformtica no Brasil 1.5. Conversando sobre bioinformtica BIOCHAT 1.6. Referncias Bibliogrficas e textos complementares 1.7. bRAINsTORM GENOMA, BIOLOGIA MOLECULAR E COMPUTAO 2.1. Introduo 2.2. Sequenciamento do DNA 2.3. Genmica 2.4. As micas: integrando a bioinformao 2.5. O PERL e outras linguagens de programao 2.6. Referncias Bibliogrficas e textos complementares 2.7. bRAINsTORM ALINHAMENTO DE SEQNCIAS 3.1. Introduo 3.2. Alinhamento Global 3.3. Alinhamento Local 3.4. Alinhamentos timos e heursticos 3.5. Alinhamentos simples e mltiplos 3.6. Matrizes de comparao 3.7. Exemplos reais de alinhamentos 3.8. Referncias Bibliogrficas 3.9. bRAINsTORM MONTANDO UM GENOMA 4.1. Sobre genomas eucariticos e procariticos 4.2. Base-calling 4.3. Cross-match 4.4. Agrupamento de seqncias 4.5. Sobre a cobertura dos genomas 4.6. Referncias Bibliogrficas 4.7. bRAINsTORM ANLISE DE TRANSCRIPTOMAS 5.1. As ESTs 5.2. Histrico das ESTs 5.3. Agrupamento de ESTs 5.4. O genoma e o transcriptoma 5.5. SAGE Serial Analysis of Gene Expression 5.6. Microarrays 5.7. Referncias Bibliogrficas 5.8. bRAINsTORM BANCOS DE DADOS EM BIOLOGIA MOLECULAR 6.1. Histrico 6.2. Bancos primrios e secundrios 6.3. GenBank e GenPept 6.4. RefSeq O banco de dados de seqncias de referncia 6.5. SWISSPROT O maior banco de dados secundrio de seqncias de protenas 6.6. Gene Ontology Sistema de classificao de genes de acordo com suas caractersticas 6.7. Referncias Bibliogrficas 6.8. bRAINsTORM ANOTAO DE GENOMAS 7.1. Introduo 7.2. Anotao de Nucleotdeos 7.3. Anotao de Protenas 7.4. Anotao de Processos 7.5. A realizao da Anotao Genmica (Sociologia da Anotao) 7.6. Referncias Bibliogrficas 7.7. bRAINsTORM BIOINFORMTICA EVOLUTIVA E GENOMAS COMPLETOS 8.1. Homologia, Ortologia e Paralogia 8.2. COG 8.3. Trabalhando com genomas completos 8.4. Referncias Bibliogrficas 8.5. bRAINsTORM BIOINFORMTICA ESTRUTURAL 9.1. Sobre a estrutura das protenas 9.2. Protein Data Bank: o banco de dados de estruturas de protenas 9.3. Modelagem molecular por homologia 9.4. Alguns programas de modelagem molecular 9.5. Threading 9.6. CASP Critical Assessment of Structure Prediction 9.7. Estrutura de um arquivo no formato PDB 9.8. Referncias Bibliogrficas 9.9. bRAINsTORM CONCLUSES E PENSAMENTOS FILOSFICOS SOBRE A BIOINFORMTICA 10.1. Sobre bioinformtica, genoma e cincia 10.2. Introduo 10.3. Genoma e o mtodo cientfico 10.4. Um conceito de bioinformtica 10.5. Princpios paradigmticos em bioinformtica 10.6. Concluso 10.7. bRAINsTORM Pg. 3 3 3 5 6 6 12 12 13 13 13 14 15 15 17 17 18 18 18 19 20 21 22 23 28 28 29 29 30 31 32 34 35 35 36 36 37 38 39 40 40 41 41 42 42 43 43 44 45 46 46 47 49 49 49 50 50 51 52 53 54 54 56 56 57 58 59 59 60 61 63 63 63 64 67 68 69 69 69 70 71 72 74 74
CAPTULO 2
CAPTULO 3
CAPTULO 4
CAPTULO 5
CAPTULO 6
CAPTULO 7
CAPTULO 8
CAPTULO 9
CAPTULO 10
PREFCIO
Quando em 2002 realizei, concomitantemente ao meu mestrado em gentica pela UFMG, o excelente curso de especializao em Bioinformtica do LNCC, ministrado por muitos dos maiores especialistas em genmica e bioinformtica de nosso pas, tive o privilgio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado Bioinformtica: manual do usurio em que todos os cerca de 20 alunos do curso se organizaram com o objetivo de gerar uma publicao bsica sobre a rea de pesquisa qual nos estamos aprofundando e formando. Esta publicao foi finalmente publicada na revista Biotecnologia Cincia e Desenvolvimento alguns meses depois. Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto terminava meus estudos de doutoramento em bioinformtica, recebi um convite para elaborar um curso on line a ser ministrado atravs do portal biotecnologia da Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em 2007 para uma turma de 40 alunos. Ainda que navegando por problemas tcnicos, acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria dos alunos saiu do mesmo tendo adquirido contedo e aprendido a compreender muito sobre a lgica e o pensamento em bioinformtica. Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este documento arquivado entre meus arquivos do perodo jurssico e tenho pena de deixar este conhecimento perdido nos meandros digitais do meu disco rgido. Assim, contatei recentemente a editora da revista que lendo o contrato que fizemos poca e dizendo serem meus os direitos autorais desta apostila ou esboo de livro, informou-me que tenho o direito de publicar o presente documento na Internet para que se torne acessvel a qualquer indivduo interessado em aprender a arte e a cincia da bioinformtica. Recomendou-me ainda que eu atualizasse as informaes aqui presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim planos de faz-lo, mas sei que precisaria reestruturar boa parte do que est aqui contido e, por falta de tempo para tanto, decido publicar esta verso gratuitamente pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei disposto a atualizar estas informaes e produzir uma segunda edio mais completa e atualizada sobre presentes assuntos. Braslia, numa quarta-feira de cinzas. 17/02/2010 Chico Prosdocimi http://biotec.icb.ufmg.br/chicopros http://chicopros.blogspot.com
Aos meus pais
CAPTULO 1
Uma viso global da bioinformtica
Iniciando nossa Interao Nesta primeiro captulo apresentaremos uma viso geral da bioinformtica, vamos conversar sobre as necessidades e oportunidades de capacitao para quem deseja atuar nessa rea.
1.1.
O que a bioinformtica?
Podemos considerar a bioinformtica como uma linha de pesquisa que envolve aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a utilizao de ferramentas computacionais para a anlise de dados genticos, bioqumicos e de biologia molecular. A bioinformtica envolve a unio de diversas linhas de conhecimento a cincia da computao, a engenharia de softwares, a matemtica, a estatstica e a biologia molecular e tem como finalidade principal desvendar a grande quantidade de dados que vem sendo obtida atravs de seqncias de DNA e protenas. Para o desenvolvimento de genomas completos, a informtica imprescindvel e a biologia molecular moderna no estaria to avanada hoje, no fossem os recursos computacionais existentes.
1.2.
O surgimento da bioinformtica
A bioinformtica, apesar de ser uma cincia nova e em desenvolvimento, j apresenta uma figura clssica que freqentemente mostrada em qualquer palestra ou curso que se v sobre a rea. Essa figura, mostrando o crescimento exponencial do GenBank nos ltimos anos, tenta mostrar que, mais do que uma abstrao possvel, a bioinformtica hoje uma necessidade para a anlise de dados em biologia molecular. Desde que os seqenciadores capilares de DNA em larga escala surgiram, no fim da dcada de 90, a quantidade de dados biolgicos produzidas simplesmente alcanou nveis que fizeram com que anlises manuais de seqncias de DNA se tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e transcriptoma. Dois desenvolvimentos foram importantes para permitir tanto o surgimento da bionformtica quanto o rpido desenvolvimento da produo de seqncias de DNA. O primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqncias eram produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo uma soluo polimrica por onde o DNA deveria passar guiado por uma corrente eltrica, como uma eletroforese normal. O outro grande desenvolvimento foi a marcao dos didesoxinucleotdeos necessrios para o sequenciamento do DNA com molculas fluorescentes. Enquanto as reaes tradicionais eram realizadas com marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e
Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
at mesmo perigosa, os marcadores fluorescentes permitiam maior segurana e ainda um novo avano. Enquanto era preciso correr diferentes reaes para cada nucleotdeo na marcao radioativa, a tcnica de marcao fluorescente permitia que cada base fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um diferente comprimento de onda se excitado por um laser. Essa luz, lida por um detector, informava ao sistema qual nucleotdeo passava em diferentes momentos da eletroforese. E foi exatamente a reunio desses dois desenvolvimentos num s aparelho que produziu o equipamento que posteriormente ficaria conhecido como o seqenciador que criou a bioinformtica. O primeiro desses aparelhos foi produzido pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96 colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de 550 bases em cada coluna, sendo oito vezes mais rpida do que a melhor concorrente da poca e possibilitando o sequenciamento de at 1 milho de pares de bases por dia. Alm de permitir o rpido desenvolvimento da bioinformtica, esse seqenciador ainda geraria brigas polticas sobre quem que deveria sequenciar todo o genoma humano, uma empresa particular ou o consrcio pblico, mas isso outra histria.
Figura 1.1. Crescimento do Genbank. Crescimento exponencial do nmero de seqncias contidas no GenBank ao longo das duas ltimas dcadas. Obtido em http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. O que importa que, desde 1998, quando o ABI Prism foi lanado, outras empresas desenvolveram tambm seus seqenciadores capilares de larga escala e o custo dessas mquinas que antes chegava a trezentos mil dlares foi aos poucos caindo e permitindo que mais e mais laboratrios pudessem ter seus prprios seqenciadores. Cada vez mais dessas mquinas so vendidas ainda hoje e o nmero de seqncias de DNA produzidas vem aumentando exponencialmente at o presente momento. Leitura complementar: http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html
1.3.
O que preciso saber para ser um bom bioinformata?
O profissional em bioinformtica raro no mercado, j que ele necessita saber e ser familiar a, pelo menos, trs reas distintas do conhecimento: a biologia molecular, a cincia da computao e a bioinformtica per se. Alm disso, conhecimentos em estatstica e matemtica so altamente recomendveis. Imagine um bilogo que no tenha conhecimento de computao: ele ser capaz de bolar uma infinidade de possveis experimentos em bioinformtica que gostaria que fossem gerados, mas ser incapaz de coloc-los em prtica. Do outro lado, um cientista da computao sem conhecimento em biologia e com sua caracterstica nsia de analisar dados, ser capaz de pegar uma infinidade de dados biolgicos e fazer uma grande quantidade de anlises computacionais sem qualquer propsito, gerando resultados de difcil interpretao, por vezes ininterpretveis ou sem qualquer sentido biolgico. O trabalho em equipe, para a produo de projetos em bioinformtica, pode ser interessante, desde que os profissionais trabalhem juntos todo o tempo. Reunies apenas espordicas normalmente fazem com que as idias do trabalho do bilogo e do cientista da computao se afastem dos ideais iniciais da pesquisa. Isso no caso mdio. claro que possvel conseguir bons resultados em casos isolados. Considerando isso, torna-se necessrio o desenvolvimento de um novo profissional, o bioinformata. Um bilogo que tenha tido uma formao parcial como cientista da computao ou vice-versa. Alm disso, preciso que tal profissional tenha ainda uma formao em bioinformtica e que conhea profundamente as diferenas e as boas e ms qualidades dos principais bancos de dados pblicos sobre seqncias e estruturas de biomolculas. Como no temos a inteno de ensinar biologia molecular ou cincia da computao, no presente curso daremos nfase exatamente a esta ltima parte, que consiste na formao do bioinformata per si, que deve conhecer pelo menos o bsico com relao anlise de genomas e as ferramentas e bancos de dados disponveis na internet para o estudo dessa nova cincia. Com relao aos requisitos computacionais que sero apresentados apenas de passagem no presente curso, um profissional em bioinformtica deve ter um bom conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de dvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformtica apresentam cdigo aberto e so, freqentemente, disponveis apenas para sistema operacionais como o LINUX e o Solaris. Os programas de cdigo aberto so aqueles nos quais os programadores disponibilizam todo o cdigo fonte do programa para o usurio, que pode alter-lo de acordo com a sua aplicao de interesse. E esse tambm um dos motivos pelos quais os bioinformatas devem ser familiarizados com linguagens de programao. Um bioinformata que no sabe programar em uma linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional deve estar ao menos apto a aprender alguma linguagem de programao. Outro conhecimento que gera um salto qualitativo na atividade do bioinformata o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL a mais comumente utilizada em uma diversidade de bancos de dados e muitos sites disponibilizam informaes armazenas em tabelas e bancos de dados inteiros. Devido sua gratuidade e eficincia, o banco de dados mais utilizado em bioinformtica o MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas mais importante ainda do que ser capaz de obter os bancos de dados pblicos o bioinformata ser capaz de criar seus prprios bancos de dados, organizando as informaes de seu projeto e permitindo tanto um bom armazenamento quanto organizao e fcil acesso aos dados. Alm disso, o conhecimento de plataformas para disponibilizar dados para os pesquisadores interessante e o bioinformata deve ter algum conhecimento de linguagem HTML e, de preferncia alguma linguagem de
programao para a internet, como o CGI ou o PHP, sendo que esse ltimo ainda apresenta a vantagem de permitir fcil conexo com bancos de dados. claro que a gama de conhecimento necessria para exercer bem uma profisso qualquer tende a ser infinita, mas indispensvel ao menos que o bioinformata seja proficiente em uma linguagem de programao e tenha bons conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem utilizadas em cada caso. Aqui, iremos passar apenas de leve em programao e biologia molecular na prxima aula e depois passaremos direto para a parte que explica e mostra quais so as principais ferramentas utilizadas em anlises genmicas e os principais bancos de dados que devem ser consultados em diferentes aplicaes.
1.4.
Cursos de ps-graduao em bioinformtica no Brasil
At o presente momento parecem existir apenas trs cursos de ps-graduao em bioinformtica no Brasil. O primeiro e mais tradicional deles o curso de psgraduao Lato Sensu em Bioinformtica do LNCC, cuja pgina oficial pode ser vista em http://www.lncc.br/~biologia/. Trs turmas de alunos j graduados de todo o pas j foram formadas por esta ps-graduao, inclusive o presente autor desse curso online, quem vos escreve. Consiste num timo curso de especializao, no qual os maiores expoentes do pas na rea so chamados para ministrar diferentes aulas nos campos da genmica, transcriptmica e protemica. Alm desse curso de psgraduao, que dura cerca de trs meses e meio, o LNCC tambm oferece cursos espordicos com durao entre duas semanas e um ms e recomenda-se visitar a pgina do LNCC para mais informaes (http://www.lncc.br). Logo a CAPES percebeu a importncia de se abrirem cursos nessa rea estratgica e props um edital para a formao de cursos de doutorado em bioinformtica. A partir da dois novos cursos de doutorado em bioinformtica foram criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais informaes, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e http://www.bioinfo.dout.ufmg.br/.
1.5.
Conversando sobre bioinformtica BIOCHAT
A revista biotecnologia promove esporadicamente o chamado biochat, que consiste em uma conversa com um pesquisador experimente de uma determinada rea do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do presente curso, onde vrias dvidas bsicas sobre o assunto podem ser sanadas. Assunto do Biochat: Conceitos e Paradigmas em Bioinformtica Pesquisador entrevistado: Francisco Prosdocimi H uma grande confuso com relao ao que seja a bioinformtica, sendo que muitos ainda acreditam que qualquer aplicao da computao biologia possa ser referenciada como "bioinformtica". Ao observarmos os trabalhos recentemente publicados na rea, podemos divid-los em trs correntes bsicas ou princpios paradigmticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais princpios sero apresentados e discutidos durante o BIOCHAT. Alm disso, interessante discutirmos quais seriam os pr-requisitos bsicos para formar um bioinformata, tanto na rea computacional quanto na rea biolgica. Do que, afinal, feito um bioinformata e o que ele precisa conhecer tema recorrente entre os curiosos sobre a rea.O conceito da bioinformtica, seus princpios paradigmticos e a formao do bioinformata sero, portanto, os temas a serem discutidos neste BIOCHAT.
Dr. Francisco Prosdocimi Vanderson:
Dr. Francisco Prosdocimi
Adonis:
Pedro:
Francisco: Dr. Francisco Prosdocimi Adonis: Dr. Francisco Prosdocimi
Pedro:
Boa noite a todos! Est aberto nosso biochat sobre bioinformtica. Por favor, enviem suas dvidas para que possamos discutir e trocar idias a respeito do assunto. Grande Francisco... Afinal, qual o conceito mais aceito para Bioinformtica? Ol Vanderson. Fico agradecido pela sua presena. Na verdade existem vrios conceitos para bioinformtica e muita confuso feita sobre o tema. Na minha opinio a bioinformtica surgiu com o boom dos sequenciadores automticos de DNA e ainda hoje est ligada a anlises de seqncias de biomolculas. Biologia computadorizada? Ouvi este termo e queria saber qual a diferena disso para Bioinformtica? Pois , meu prezado Adonis. A biologia computacional diz respeito a qualquer aplicao da computao na rea biolgica, enquanto a bioinformtica est freqentemente associada a analise de seqncias de genoma, transcriptoma e proteoma. Esses conceitos entretanto so bastante maleveis e modificam-se todos os anos. Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em Bioqumica, na Universidade Federal de Viosa e tenho direcionado a minha formao acadmica para me tornar... Com relao aos cursos especficos para bioinformtica, eles existem no Brasil apenas em nvel de ps-graduao. Sendo que um deles o curso de especializao lato sensu do LNCC, no qual acontece a formao de especialistas em bioinformtica. Na USP e na UFMG existem cursos de doutorado em bioinformtica, onde tais profissionais so formados. Eu, a propsito, fui aluno do LNCC e fui tambm o primeiro aluno a defender o doutorado em bioinformtica na UFMG. Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma dvida... Com relao a cursos de graduao, meu prezado xar, ainda no existem na rea e recomendo que vc faa um curso de biologia ou de computao, se pretende seguir carreira em bioinfo. ento bioinfo est dentro da biologia computacional? Concordo, Adonis. Na minha opinio a bioinformtica , sim, uma parte da biologia computacional, sendo essa ltima uma rea bastante ampla e no necessariamente relacionada com biologia molecular. Embora, repito, esses conceitos so maleveis e modificam-se com o desenvolver das cincias. Qual a sua experincia com a Bioinformtica? O senhor trabalha mais no meio acadmico ou se relaciona diretamente com o mercado de trabalho? Trabalho com bioinformtica desde 2000, tendo tido anteriormente uma formao como bilogo molecular em bancada. Fiz minha monografia de bacharelado, minha dissertao de mestrado (em gentica) com anlises de transcriptomas do verme Schistosoma mansoni e fui o primeiro aluno a defender o doutorado em bioinformtica na UFMG trabalhando com anlises de qualidade de seqncias de DNA e genmica comparativa. Sempre trabalhei mais voltado para o meio acadmico, mas j fiz tambm alguns trabalhos em parceria com uma empresa de Belo Horizonte na rea de bioinformtica. A empresa se chama vetta technologies.
Vanderson:
Adonis:
Paulo:
Pedro:
Marx: Dr. Francisco Prosdocimi
Adonis:
Pegando a deixa do Pedro, voc acha que h mercado de trabalho para bioinformatas no Brasil... alm das instituies pblicas e da Alellyx? Infelizmente, meu amigo Vanderson, no acredito que haja ainda mercado de trabalho para bioinformtica fora das universidades, embora o campo na rea de biotecnologia tenha crescido e venha crescendo. A existncia de algumas empresas trabalhando em biotecnologia muito pequena ainda no Brasil e apenas a Alellyx e a Scylla tm alguma representatividade no mercado. Ou seja, a bioinformtica ainda matria para cientistas financiados pelo governo. Qual seria a dica para trabalhar com bioinfo em um lugar onde no se faa molecular? A dica estar em parceria com pesquisadores que tenham perguntas que s possam ser respondidas atravs de anlise computacional. Eu mesmo tenho vrias colaboraes com diferentes laboratrios e produzi um software recentemente, o TGFinder, que surgiu como uma necessidade de um pesquisador de encontrar genes controlados por fatores de transcrio. Alm disso, o GenBank possui tantas seqncias depositadas e tanta informao a ser mineirada que nem todos os cientistas do mundo seriam capazes de tudo analisar. claro que a pesquisa de ponta normalmente aquele onde se produz e se analisa um novo dado em biologia molecular, mas h muito ouro a ser peneirado nos bancos de dados pblicos. Ol Dr. mas como aplicada a computao ou informtica, na biologia,neste sequenciadores automticos de DNA? A computao aplicada, principalmente, na anlise e identificao das seqncias de DNA que saem dos sequenciadores automticos. A seqncia sai de l como um monte de A, C, T e G... que no querem dizer nada. O que significa para voc isso aqui: ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformtica conseguimos atrelar a informao codificada em informao biolgica, associando A, C, T e G a algum nome de gene com alguma funo especifica... Aprofundando mais a discusso, a iniciativa privada na bioinformtica est... O grande problema, Pedro, que acredito que dificilmente a bioinformtica per se pode dar algum lucro. Por exemplo, a empresa Alellyx tem, alm de um grande know how em bioinfo, um grande know how em biologia molecular e em genmica. A descoberta de novos genes 'apenas' por bioinfo muito difcil e preciso estar sempre sequenciando novos organismos. E um sequenciador de DNA muito caro para que pequenos empresrios possam comprar, o capital inicial de uma empresa de biotecnologia apresentando bioinformtica muito alto. E fora do Brasil, como esto as perspectivas? Fora do Brasil eu acredito que haja bastante espao, sim, para bioinformatas. Assino uma lista de jobs em bioinformtica e freqentemente vejo pedidos para profissionais da rea... o nico problema que normalmente exige-se grande experincia prvia, o que no temos ainda no Brasil -- profissionais qualificados. Dr. Francisco Prosdocimi, fale um pouco sobre minerao de dados j que esta o etapa seguinte depois da gerao das seqs.
Pedro:
Paulo:
Vanderson:
Carla: Dr. Francisco Prosdocimi
Adonis:
Bem, caro Adonis, isso me remete aos princpios paradigmticos da bioinformtica que apresentei no texto introdutrio. Acredito que os trabalhos atuais em bioinformtica podem ser divididos em trs correntes principais, os trabalhos de tijolo -- onde ferramentas de bioinformtica so produzidas para construir os edifcios genmicos, os trabalhos de peneira -- onde a minerao da grande massa de dados em genmica so analisados mais especificamente em vrios contextos -- e os trabalhos de lupa, onde a genmica encontra a cincia e o mtodo cientfico de observao, hiptese, experimentao e resultados so novamente retomados. Escrevi um trabalho sobre isso para a revista cincia hoje que foi publicado em 2004. Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia Aplicada Agropecuria) no Laboratrio de Bioinformtica, desenvolvendo softwares de anlise populacionais (gentica de populaes). Voc considera vlido esse tipo de iniciativa ou seria melhor eu estar trabalhando mais especificamente com a biologia molecular? Considero muito vlido seu trabalho. Mas tambm j tentei produzir algo relacionado a gentica de populaes e acho muito difcil produzir algo melhor do que os j conhecidos programas PAUP, PHYLIP, MEGA, dentre outros. Boa sorte! Poderamos ou podemos, descobrir qual a seqncia para uma determinada protena ou caracterstica. Ou para identificar estes pares, para saber qual protena ela vai produzir, seria isto? Podemos sim, saber qual a seqncia de DNA relativa a uma determinada protena e, muitas vezes, uma caracterstica. Existe at mesmo um projeto conhecido como FENOMA, que tenta identificar os genes responsveis por algum fentipo (caracterstica). O que acontece, entretanto, que grande parte das caractersticas so geradas atravs de um grande nmero de genes que interagem entre si e fazem da anlise algo complicadssimo! Tenho uma opinio a expressar... Um grande problema que eu percebo na maioria dessas ferramentas de bioinformtica o total descaso com usurios Concordo plenamente, Vanderson. Bilogos no esto interessados em utilizar sistemas linux, linhas de comando e outros artifcios computacionais de start-up razoavelmente complexo. Interfaces grficas e fceis, de preferncia via web e bastante user-friendly so altamente recomendveis. Mas preciso dizer que h tambm programas com manuais completos e simples, mas o usurio parece ter preguia de l-los, o que definitivamente preciso fazer. Por acaso j se pode analisar um gene pelo computador? claro, Carla, os genes so formados por seqncias de nucleotdeos que so representadas por A, C, G e T, transformando as seqncias dos genes em letrinhas que so analisadas e comparadas entre diferentes espcies animais. real a migrao de perl para java? ou isso s t ocorrendo no meio privado? Essa migrao seria um preocupao com uma interface mais amigvel? Caro Adonis, acredito que a migrao de PERL para JAVA est relacionada ao fato de que a linguagem JAVA multiplataforma, alm de ser nativamente orientada a objetos, o que facilita a criao de programas mais complexos e de grande porte. Acredito que os scripts
10
Carla: Dr. Francisco Prosdocimi
Macedo:
Pedro:
Dani:
Pedro: Dr. Francisco Prosdocimi
freqentemente utilizados em trabalhos de bioinformtica devem continuar sendo produzidos em PERL, que uma linguagem onde a expresso regular nativa e rpida, sendo mais apropriada para tais trabalhos. Sim, a migrao tambm pode estar relaciona com uma interface mais amigvel, j pronta em vrios objetos JAVA. Como o Brasil est em relao a outros paises, nesse desenvolvimento? O nosso pas valoriza a bioinformtica? O Brasil anda atrs dos pases desenvolvidos quando o assunto bioinformtica e, apesar de que recentes iniciativas da CAPES e do CNPq vm tentando buscar equiparao internacional, a bioinformtica brasileira ainda est em seu bero (esplndido). Boa noite Dr. Gostaria de saber sobre o cenrio de Software Livre x Software Proprietrio em bioinformtica. O Sr. acredita que a adoo do software livre pode ajudar na reduo de gastos em pesquisa e desenvolvimento e que isso possibilitar o estudo de doenas negligenciadas? Ou o segmento acadmico enxerga o software livre apenas como ... No caso da bioinformtica posso assegurar que mais de 95% dos softwares so livres ou de livre acesso (pelo menos para o meio acadmico) e cerca de 50% so de livre acesso para todos. Por isso, a bioinformtica exige um custo inicial para pesquisa bem baixo e esse mais um dos motivos pelos quais essa cincia deveria ser mais incentivada em nosso pas. Com um computador razovel e boas idias possvel fazer boa bioinformtica!!! Uma empresa privada que prestasse suporte em bioinformtica (desenvolvendo softwares sequenciadores para organismos especficos ou que atendessem alguma demanda de determinada pesquisa, com uma interface mais amigvel com o usurio final) poderia dar certo? No estou bem certo, Pedro. O problema que a idia para elaborao de softwares teria de vir da academia e no sei o pessoal das universidades estaria disposto a dar a idia para que vc fizesse o software para eles comprarem, entende? Eles prefeririam pedir no departamento de computao para ver se algum outro aluno faria o mesmo software de graa, gerando um trabalho publicvel em conjunto. A menos que vcs produzissem um pacote grande, para uma ampla gama de aplicaes... a vc poderia dar certo com sua empresa... Um profissional em bioinformtica deve saber tanto trabalhar com os softwares de anlises de seqncias quanto desenvolver novos programas? Quais so as linguagens de programao mais utilizadas para este fim? tima pergunta, Dani. imprescindvel para o profissional de bioinformtica, na minha opinio, ter quatro conhecimentos bsicos: (1) Ele deve entender bem biologia molecular, (2) saber trabalhar com os bancos de dados disponveis na internet, (3) saber BEM uma linguagem de programao e (4) saber manipular bancos de dados. Estes, na minha opinio, so os principais requisitos para formar um bioinformata. Voc contrataria uma empresa dessa natureza para dar suporte s suas pesquisas ou prefere, voc mesmo, desenvolver os aplicativos com que trabalha? Depende do quanto de trabalho fosse necessrio. Se fosse pouco trabalho, eu mesmo desenvolveria. Se necessitasse de um software
11
Fabio:
Pedro:
Dani:
Dani:
Dr. Francisco Prosdocimi Ricardo:
amplo, talvez preferisse pagar... mas dependeria de financiamento governamental para isso... e o governo no gosta muito do assunto 'comprar softwares de empresas privadas para trabalhos cientficos'. No ltimo edital do CNPq para bioinfo, enviamos um projeto tentando comprar um software e o projeto no foi aprovado... possivelmente por este nico motivo. Boa Noite Dr. Francisco, participei da primeira turma de especializao em bioinformtica do LNCC, atualmente estou fazendo doutorado em microbiologia na UFRJ. Gostaria de saber na sua opinio quais so as principais diferenas dos cursos de doutorado em Bioinformatica da USP e da UFMG? Fala, Fbio. com receber companheiros por aqui... fui seu sucessor no LNCC, participando da segunda turma. No posso dizer muito do curso de doutorado na USP, o qual conheo pouco. Mas ao que me parece o curso da USP muito voltado para as cincias exatas, tendo uma alta carga de disciplinas de matemtica e estatstica. Aqui na UFMG a carga de disciplinas bem balanceada e leve, de forma que o aluno possa se preocupar mais com seu projeto de tese. A quantas anda o desenvolvimento das pesquisas em bioinformtica aqui no estado de Minas Gerais? Aqui em Minas temos alguns grupos de bioinformtica montados. No posso dizer que conheo todos eles, mas aqui na UFMG temos ao menos uns trs grupos de bioinformtica, trabalhando com genoma de 'Schistosoma mansoni', genmica comparativa e genmica evolutiva, mas as coisas ainda so um pouco precrias e a infra-estrutura no das melhores. Sou biloga, especialista em biotecnologia - trabalho com saneamento - rea ambiental - - mas tenho grande interesse em bioinformtica. Quais so os conhecimentos bsicos de informtica que um bilogo deve ter para iniciar um mestrado em bioinformtica? Bem, no conheo nenhum mestrado em bioinformtica e acho que -se houvesse algum -- o aluno deveria conhecer o bsico de sistemas linux e linguagens de programao. Mas dependendo, se o mestrado for para bilogos ou para computlogos, os conhecimentos a serem exigidos so diferentes. Se for um mestrado para bilogos possvel que no seja necessrio nenhum conhecimento de informtica e todo o conhecimento pode ser adquirido quando da realizao do curso. Qual campo de trabalho para um ps-graduado em bioinformtica, alm do desenvolvimento de pesquisas em universidades, fundaes de pesquisa Federais,Estaduais e a Licenciatura? Bem, essa pergunta um tanto quanto capciosa. Se uma pessoa formou em bioinformtica, imagino que ela queira fazer pesquisa ou dar aulas. claro que ela pode tambm trabalhar em alguma empresa de biotecnologia ou de bioinformtica per si... mas acredito que a ela teria que ir pra fora do Brasil... Quais so os trabalhos que vc est fazendo ultimamente na rea? Ol, Ricardo. Ultimamente tenho trabalhado com anlises do software PHRED, com a montagem de um programa para simular a evoluo em locos de microsatlites, trabalho tambm com a diferena na utilizao de aminocidos por protenas de diferentes organismos, com a origem do cdigo gentico, com famlias de protenas dedos de zinco, dentre diversas outras coisas.
12
Pedro:
Pedro:
Pedro: Dr. Francisco Prosdocimi
Ento, estarei entrando em contato com o senhor (pois estou na organizao do evento). Mais uma pergunta, ainda muito cedo para pensarmos em cursos de graduao em bioinformtica no Brasil? Ok. Acho que um curso de graduao em bioinformtica poderia ser bastante interessante sim, mas acho que cedo para isso. Ainda no h, s pra vc ter uma idia, um conceito amplo do que seja bioinformtica e preciso que esta disciplina fique mais madura ao longo dos anos para que esse conceito brote claramente. Acho que os bilogos moleculares atualmente so os principais candidatos a se tornarem bioinformatas e no h nem cursos de graduao em biologia molecular... pelo menos desconheo... A ttulo de informao: foi criada na grade curricular do Bacharelado em Bioqumica-UFV a BQI460 (Bioinformtica), onde sero abordados os principais aspectos dessa nova rea do conhecimento. Bem, aqui na UFMG o prof. Miguel Ortega j ministra mais de dois anos uma matria de tpicos em bioqumica e biologia molecular cujo assunto a bionformtica. bastante interessante que a universidade de Viosa tenha proposto uma disciplina especfica sobre o assunto e mostra como est atualizada com relao aos novos avanos da biologia molecular. O que voc considera como maior desafio para a consolidao da Bioinformtica no Brasil? Considero o maior desafio a formao dos profissionais e a montagem de infra-estrutura adequada e de computadores de alto-desempenho para as anlises mais elaboradas na rea.
1.6.
Referncias Bibliogrficas e textos complementares
1 Davies, K. (2001). Decifrando o genoma. Companhia das letras. 2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html 3. NCBI: A Science Primer Bioinformatics http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html 4. Chico On Line Bioinformtica - http://www.icb.ufmg.br/~franc/cool 5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
1.7
Brainstorm
1. D sua opinio sobre o que entende por bioinformtica e qual a importncia da rea. 2. V ao site do NCBI (National Center for Biotechnology Information, o centro americano para informao biotecnolgica, http://www.ncbi.nlm.nih.gov), leia e navegue um pouco. Encontre algum servio interessante e reporte sua experincia.
13
CAPTULO 2
Genoma, biologia molecular e computao
2.1.
Introduo
Como j foi dito, o presente curso no tem como funo explicar genmica, biologia molecular ou computao. Ainda assim, alguns conceitos se tornam importantes para que possamos seguir o curso e neste captulo estaremos nos dedicando a eles.
2.2.
Sequenciamento do DNA
Figura 2.1. O dogma central da biologia molecular. Da anlise de DNA temos os projetos genoma, da anlise do contedo de RNAs mensageiros de uma clula produzimos estudos de transcriptoma e a partir da anlise de contedo protico geramos os projetos proteoma. A bioinformtica surgiu a partir da biologia molecular e dela ainda inseparvel (figura 2.1). No captulo anterior, aprendemos que a bioinformtica se desenvolveu principalmente depois do surgimento dos seqenciadores de DNA em larga escala, como o ABI Prism 3700. A reao de sequenciamento de DNA consiste basicamente em um processo de amplificao da molcula de DNA de interesse. Entretanto, durante essa amplificao, so utilizados tanto os nucleotdeos normais de DNA, conhecidos como desoxiribonucleotdeos quanto alguns nucleotdeos especiais, conhecidos como di-desoxiribonucleotdeos. A diferena entre eles que os didesoxinucleotdeos apresentam, como o nome diz, uma molcula de oxignio a menos, eles no contm uma extremidade 3OH livre. Assim, se lembrarmos como formado o esqueleto de uma cadeia de DNA, veremos que os nucleotdeos adjacentes so ligados entre si atravs de uma ligao com um grupamento fosfato exatamente na posio do carbono 3. Isso significa que, um nucleotdeo que no apresente um grupamento OH nesta posio (chamado di-desoxiribonucleotdeo ou simplesmente didesoxinucleotdeo) impede a ligao de um nucleotdeo em seguida, o que interrompe a cadeia de DNA naquela posio. Assim, durante a amplificao em que consiste a reao de sequenciamento do DNA, so produzidas molculas de diferentes tamanhos, sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotdeo que impede a ligao de outros nucleotdeos a seguir. Alm disso, dependendo de qual base ele carrega, cada um desses nucleotdeos sem a extremidade 3OH livre
14
apresenta um pigmento fluorescente diferente adicionado. Aps a reao de sequenciamento que realizada num termociclador, assim como um PCR --, as molculas resultantes so submetidas a uma eletroforese. Nesse procedimento, o DNA resultante da amplificao submetido a um gradiente eltrico dentro de uma matriz de gel, que permite uma mobilidade diferencial das molculas. As molculas pequenas de DNA movem mais rapidamente para o plo positivo durante essa eletroforese. Essas molculas pequenas foram aquelas que incorporaram didesoxinucleotdeos mais precocemente do que as outras. E assim, elas vo se movendo na matriz gelatinosa mais rapidamente, indo em direo ao plo positivo. Quando chegam prximo ao plo, um laser incide sobre essa molcula e, dependendo de qual didesoxinucleotdeo foi incorporado em sua extremidade final, o laser promove a incidncia da fluorescncia num receptor que capta, afinal, qual foi o comprimento de onda daquele fluorforo excitado. Assim, conseguimos descobrir qual foi a ltima base daquela molcula j que diferentes didesoxinucleotdeos -- com diferentes bases nitrogenadas (A, C, G ou T) --, produzem fluorescncia diferente a ser captada pelo laser e, dessa forma, sabemos se a ltima base daquela molcula uma adenina, uma guanina, uma citosina ou uma timina. E medida que as molculas vo passando pelo gel, cada uma contendo a diferena de um nico nucleotdeo marcado de acordo com sua base, o computador vai gerando um perfil de fluorescncias que posteriormente sero transformadas nas letras que representam a seqncia de bases da molcula original por algoritmos especficos, que trataremos posteriormente neste curso. No tarefa fcil explicar na forma de texto como realizado o sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site para entenderem melhor como o seqenciamento do DNA realizado, passo a passo: http://www.dnalc.org/shockwave/cycseq.html. Outras animaes interessantes em biologia molecular (como a da tcnica de PCR de amplificao do DNA ou tcnicas forenses baseadas em DNA) podem ser obtidas no mesmo site. preciso, entretanto, fazer o download gratuito do programa macromedia shockwave.
2.3.
Genmica
Um genoma consiste no conjunto haplide de informaes presentes no DNA de um determinado organismo. O conjunto haplide porque, na verdade, um organismo diplide apresenta uma dupla cpia de um mesmo segmento de DNA, presente nos cromossomos homlogos. Assim, no faz sentido ter essa redundncia de informao e, por isso, considera-se o genoma como sendo o conjunto haplide de informao gentica. Para obter uma seqncia genmica devemos pegar as clulas de um determinado organismo, purificarmos seu DNA e realizarmos a construo da chamada biblioteca de DNA genmico. Para tal, o DNA do organismo deve ser picotado em pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser plasmdeos, cosmdeos ou vetores que permitem a insero de segmentos grandes de DNA, como os BACs ou YACs que so, respectivamente, os cromossomos artificiais de bactrias e leveduras. A partir desses vetores que so, freqentemente, seqenciados os segmentos de DNA e cada reao de sequenciamento produz molculas apresentando algo entre trezentos e mil pares de bases. Como os genomas so muito maiores do que esse tamanho, mostra-se necessria a montagem do genoma utilizando algoritmos de sobreposio de seqncias, que sero apresentados em aula posterior. E se o genoma consiste no sequenciamento da molcula de DNA de uma determinada clula, o transcriptoma consiste no sequenciamento do contedo de RNA mensageiro (mRNA) produzido em uma determinada clula sujeita a determinada condio. Enquanto uma clula apresenta apenas um genoma esttico e imutvel, a
15
mesma pode apresentar milhares de diferentes contedos de transcriptoma, j que a expresso de genes depende de diversos fatores, como o grau de maturao da clula, a temperatura qual ela est sujeita, os nutrientes presentes no meio, a presena de algum agente mutagnico especfico e mais milhares de outros fatores. Assim, os estudos de transcriptoma podem mostrar a adaptao da clula a determinada condio e podemos estudar os genes que ficam ativos quando dessa condio. Na produo de um projeto transcriptoma (ou de genmica funcional, como tambm freqentemente chamado) deve-se purificar o contedo de mRNA da clula da condio desejada. Como o RNA uma molcula muito instvel, realiza-se sua transcrio reversa, transformando este RNA numa molcula conhecida como cDNA, que representa o DNA complementar seqncia daquele mRNA. Esse cDNA ento clonado em vetores de clonagem para a produo da biblioteca de cDNA que contm uma amostra fiel dos mRNAs que foram produzidos pela clula naquela condio. Vale notar que, enquanto no genoma observa-se normalmente apenas uma cpia de cada gene, nas anlises de transcriptoma, cada um dos genes pode estar amostrado dezenas de vezes, pois a clula pode estar precisando do mesmo para realizar algum tipo de processo e ele pode ter sido transcrito centenas de vezes em molculas de mRNA.
2.4.
As micas: integrando a bioinformao Veja o artigo publicado na edio 32 da revista biotecnologia: http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf.
O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da genmica no mundo e ainda vrios conceitos importantes de biologia molecular e genmica. Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 2837. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
2.5.
O PERL e outras linguagens de programao
No captulo anterior discutimos sobre os conhecimentos relevantes para um profissional na rea de bioinformtica. Nesse momento, portanto, gostaria de falar mais um pouco sobre a informtica utilizada para a anlise de seqncias. extremamente importante que qualquer pessoa trabalhando na rea de bioinformtica conhea alguma linguagem de programao. E a principal linguagem utilizada por profissionais da bioinformtica o PERL. O PERL uma linguagem de script que foi criada em 1987 por um cientista da computao chamado Larry Wall e uma sigla para Practical Extraction and Report Language ou, em portugus, Linguagem Prtica de Extrao e Relatrio. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do PERL remonta ao shell scripting, que a programao em linhas de comando, ao awk, uma outra linguagem bem simples de programao shell e linguagem C, uma das mais utilizadas pelos programadores. Essa linguagem disponvel para praticamente todos os sistemas operacionais, mas utilizada mais freqentemente em sistemas Unix e compatveis. E o PERL freqentemente utilizado pelos bioinformatas porque uma linguagem montada para trabalhar facilmente com o processamento de cadeias de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fcil manipulao de arquivos texto e a utilizao das chamadas expresses regulares, muito teis para se realizar busca em seqncias de caracteres. Como tanto o DNA
16
quanto o RNA e as protenas podem ser facilmente representados por seqncias de caracteres nucleotdeos ou aminocidos, representados por seqncias de uma letra --, o PERL acabou por permitir, intrinsecamente, uma fcil manipulao dos dados de biologia molecular. Um exemplo simples de programa em PERL apresentado abaixo para transformar uma seqncia de DNA de entrada em uma nova seqncia de RNA. O programa considera que a fita de DNA de entrada a fita codificadora e, portanto, o programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila, representando as bases do RNA. Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA. #!/usr/bin/perl # Seqncia que se deseja utilizar $meuDNA= TTCCGAGCCAATTGTATCAGTTGCCAATAG; # Faz com que a seqncia de RNA receba a mesma seqncia do DNA $meuRNA = $meuDNA; # Troca as bases produzindo a fita complementar $meuRNA =~ tr/T/U/; print Minha seqncia de RNA : \n $meuRNA; A primeira linha obrigatria e diz ao programa o caminho onde se encontra o interpretador PERL para que o programa possa encontr-lo na hora de sua execuo. Normalmente o PERL est disponvel no diretrio /usr/bin das distribuies Unix. Vale notar que, ao contrrio da grande maioria das outras linguagens de programao normalmente utilizadas, um programa PERL no compilado de forma a gerar um executvel em linguagem de mquina. O script PERL necessita, portanto, de que exista um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e exatamente a pasta onde esse interpretador est localizado que deve aparecer nesta primeira linha de cdigo. As linhas do script que se comeam com o sinal # representam linhas de comentrio e servem apenas para facilitar o entendimento do cdigo, no sendo realmente lidas pelo interpretador. Todas as variveis em programao PERL so precedidas do sinal de dlar $, elas no tm um tipo prdefinido (como inteiro, booleano, real, etc.) e no precisam ser declaradas anteriormente, cabe ao programador saber como e em que contexto devem ser utilizadas. H tambm as variveis do tipo array, que so precedidas do sinal de @ e as variveis do tipo hash, que devem ser precedidas do sinal de %. Todos os comandos terminam sempre com um sinal de ponto-e-vrgula. Neste exemplo, a linha que realmente faz a traduo de uma seqncia de DNA para uma seqncia de RNA a que apresenta o sinal =~. Esse sinal est relacionado utilizao de uma expresso regular que, no caso, faz a traduo de todos as letras T de uma seqncia de caracteres, transformando-as em letras U. No fundo, a bioinformtica e, num sentido mais amplo, todo software -- pode ser desenvolvido utilizando-se qualquer linguagem de programao e h os que ainda preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No fundo, essa uma opo pessoal e por mais que uma ou outra linguagem seja mais adaptada ou mais rpida para determinado problema, possvel fazer quase qualquer coisa com quase qualquer linguagem. Entretanto, mesmo essa simples traduo que fizemos de DNA para RNA com apenas uma linha de cdigo, pode se tornar mais rdua quando realizada em diferentes linguagens e exatamente por isso que o PERL mais utilizado na rea; por facilitar a programao. Para sistemas mais complexos, no
17
entanto, parece ser consenso que a utilizao de uma linguagem de programao multi-plataforma, como o caso do Java, seja mais adequada. 2.6. Referncias Bibliogrficas e textos complementares
1. Dolan DNA Learning Center Biology Animation Library http://www.dnalc.org/resources/BiologyAnimationLibrary.htm 2. Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl
2.7.
Brainstorm
1. Voc viu a animao sobre como feito o sequenciamento do DNA, descreva agora as etapas atravs das quais realizada esta tcnica. 2. Descreva como so feitos projetos genoma e transcriptoma. 3. Perguntas sobre o texto escrito por Binneck. a. Apesar de apresentarem um nmero de genes bastante similar a outros organismos, diz-se que os seres humanos apresentam uma diversidade de protenas muito maior do que eles. A que se deve tal diversidade? b. Qual a porcentagem do genoma humano que responsvel pela produo de genes/protenas? E o resto, qual seria o motivo se que h algum para haver tanto DNA no codificante no genoma? c. Voc acredita que genes que alteram seus padres de expresso em conjunto possam ter funes parecidas? Por qu? d. Escolha duas das cincias micas e descreva-as e. Discorra sobre o papel da bioinformtica na agregao de dados em biologia 4. Com relao a linguagens de programao, por que o PERL conhecido como a linguagem dos bioinformatas? Os dados em bioinformtica podem ser tratados com outras linguagens de programao? Cite outra linguagem possvel.
18
CAPTULO 3
Alinhamento de Seqncias
3.1. Introduo O alinhamento de seqncias consiste no processo de comparar duas seqncias (de nucleotdeos ou protenas) de forma a se observar seu nvel de identidade. Essa tcnica de comparao de seqncias implementada segundo um conceito de desenvolvimento de programas conhecido como um algoritmo guloso e um dos pilares de toda a bioinformtica. Existem centenas de aplicaes do alinhamento de seqncias, tanto na identificao de genes e protenas desconhecidas, quanto na comparao da ordem de genes em genomas de organismos proximamente relacionados (sintenia), no mapeamento de seqncias expressas dentro de um genoma para identificao de genes, na montagem de genomas e em diversas outras aplicaes. Por exemplo, podemos alinhar duas seqncias para descobrirmos o grau de similaridade entre as seqncias de forma que possamos inferir (ou no) a uma delas, alguma propriedade j conhecida da outra (Prosdocimi et al., 2003). O alinhamento entre duas seqncias pode ser feito de forma global ou local (Figura 3.1.).
Figura 3.1. Alinhamento global e local. esquerda vemos um exemplo de como feito um alinhamento global das seqncias e direita vemos um exemplo da realizao de um alinhamento local. Retirado de Prosdocimi et al., 2003.
3.2. Alinhamento Global O alinhamento global feito quando comparamos uma seqncia de aminocidos ou nucleotdeos com outra, ao longo de toda sua extenso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo Needleman-Wunsch o mais conhecido para realizar esse tipo de alinhamento,
19
embora outros programas, como o MULTALIN (http://prodes.toulouse.inra.fr/multalin/multalin.html) tambm o faam (Corpet, 1988). Nesse caso so dados valores em uma matriz de comparao para as similaridades (matches), diferenas (mismatches) e falhas (gaps) encontrados durante o alinhamento das seqncias. As somas dos valores do alinhamento, de acordo com essa matriz de comparao, resulta num valor, que um escore de similaridade entre as seqncias (Figura 3.2.). No MULTALIN no dado escore de similaridade (j que ele permite o alinhamento de vrias seqncias ao mesmo tempo), e a semelhana entre as seqncias deve ser medida atravs de inspeo visual.
3.3. Alinhamento Local O alinhamento local acontece quando a comparao entre duas seqncias no feita ao longo de toda sua extenso, mas sim atravs de pequenas regies destas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O principal programa utilizado para o alinhamento local de seqncias o BLAST (Basic Local Alignment Search Tool ou Ferramenta Bsica de Procura por Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse software compreende um conjunto de algoritmos de comparao de seqncias montado de forma a explorar toda a informao contida em bases de dados de DNA e protenas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas BLAST foram desenvolvidos de modo a aumentar ao mximo a velocidade da busca por similaridade -- j que as bases de dados so grandes e vm crescendo exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o programa utiliza uma heurstica que quebra as seqncias de entrada e das bases de dados em fragmentos as palavras (words) e procura, inicialmente, similaridades entre elas. A busca ento feita com palavras de tamanho W que devem apresentar pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de valores. Assim, as palavras que apresentam esse escore T (maior responsvel pela velocidade e sensibilidade da busca) (Altschul et al., 1997) so estendidas em ambas as direes para ver se geram um alinhamento com um escore maior do que S. Uma outra vantagem de se utilizar o alinhamento local feito pelo BLAST que, dessa forma, possvel identificar relaes entre seqncias que apresentam apenas regies isoladas de similaridade (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html).
Figura 3.2. Alinhamento de seqncias. O alinhamento de seqncias de DNA feito atravs da procura de uma regio de similaridade entre duas seqncias utilizando um
20
algoritmo guloso. Quando essa regio encontrada so dados pontos para similaridades (match), diferenas (mismatches), abertura de falhas (gap opening) e extenso de falhas (gap extension) que possam ser encontradas no seu alinhamento. A somatria dos pontos desse alinhamento chamado de escore do alinhamento e, no exemplo mostrado, o escore do alinhamento 3. Tais escores so contabilizados tanto nos alinhamentos globais quanto locais.
Os resultados do BLAST so ento apresentados de acordo com dois parmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore depende do tamanho do alinhamento, do nmero de matches/mismatches/gaps e da matriz de comparao de seqncias utilizada e normalizado atravs de variveis estatsticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). J o valor E representa o nmero de alinhamentos com escores iguais ou melhores que S que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que (num banco de dados de grandes propores) um valor de E igual a zero significa que no h chance de que um alinhamento entre as duas seqncias tenha ocorrido por mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O BLAST apresenta diferentes subprogramas que devem ser utilizados de acordo com o tipo de seqncia de entrada e os bancos de dados que se deseja pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e programa a ser utilizado. Formato da Formato da Programa Seqncia de Banco de dados seqncia que BLAST Entrada comparado adequado Nucleotdeos Nucleotdeos Nucleotdeos BLASTn Protenas Protenas Protenas BLASTp Nucleotdeos Protenas Protenas BLASTx Protenas Nucleotdeos Protenas TBLASTn Nucleotdeos Nucleotdeos Protenas TBLASTtx Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de seqncia e banco de dados desejados. Adaptada de http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html.
3.4. Alinhamentos timos e heursticos Algo que deve ser levado em considerao sempre que se deseja fazer alinhamentos de seqncias o fato de que o alinhamento desejado seja o melhor possvel de ser obtido atravs de ferramentas computacionais ou se desejamos apenas uma aproximao vlida desse melhor resultado. evidente que, em condies normais, desejaramos sempre obter o melhor resultado de alinhamento possvel e, portanto, utilizaramos os algoritmos que produzem resultados timos. Entretanto, algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos que o resultado obtido no seja o melhor possvel e, assim, utilizamos algoritmos que apresentam algum tipo de heurstica. E essa heurstica, no caso, normalmente consiste em uma forma qualquer que o programador utiliza para acelerar a produo dos resultados, em detrimento da obteno do melhor resultado possvel. Assim obtm-se um resultado aproximado, mas rpido. A tabela 3.2 apresenta os principais algoritmos utilizados em bioinformtica para o alinhamento de seqncias.
21
Tipo de Preciso do Nmero de seqncias Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurstico 2 SWAT (Smith-Waterman) Local timo 2 ClustalW Global Heurstico N Multalin Global Heurstico N Needleman-Wunsch Global timo 2 Tabela 3.2:Principais programas de alinhamento de seqncias e suas caractersticas. Programa As ferramentas de alinhamento timo so aquelas que nos do como resultado o melhor alinhamento possvel de acordo com a metodologia algortmica de comparao de seqncias. Via de regra, a execuo desses algoritmos mais lenta do que a daqueles algoritmos que no geram o resultado perfeito e, como vimos na tabela 4.2., existem ferramentas de alinhamento timo locais e globais. O maior problema em utilizar os programas de alinhamento timo consiste nos casos onde so alinhadas mltiplas seqncias entre si. Nesses casos, o alinhamento timo pode se tornar simplesmente impossvel de ser feito, pois gastaria uma quantidade de tempo quase infinita para alinhar otimamente uma quantidade seqncias no muito grande. Nos outros casos, entretanto, deve-se preferir a utilizao de algoritmos que produzam o alinhamento timo em detrimento dos algoritmos de pesquisa heurstica. Algoritmos heursticos so aqueles que no realizam o alinhamento timo entre seqncias. Esses algoritmos freqentemente utilizam alguma tcnica alternativa para acelerar o resultado da busca por seqncias similares, no caso. O BLAST, por exemplo, como vimos no item anterior, parte a seqncia em pedaos para acelerar a busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que seja o mais prximo possvel do resultado timo. Como j comentado, so principalmente utilizados em alinhamentos mltiplos, onde os algoritmos timos demoram um tempo muito grande para gerar os resultados. So freqentemente utilizados tambm quando da comparao de seqncias contra grandes bancos de dados, exatamente como faz o BLAST, que procura a similaridade de uma seqncia de entrada contra milhes de outras presentes em seu banco de dados. Muitas vezes, os resultados obtidos com programas heursticos devem ser confirmados por programas de alinhamento timo antes de serem publicados em revistas especializadas. Entretanto algumas vezes tal procedimento no necessrio e tudo vai depender do tipo de trabalho que est sendo realizado.
3.5. Alinhamentos simples e mltiplos Como tambm j foi comentado na seo anterior, existem dois tipos principais de alinhamentos de seqncias no que concerne ao nmero de seqncias que so comparadas durante o alinhamento. Quando apenas duas seqncias so comparadas entre si, diz-se que o alinhamento simples. E, nesses casos, normalmente prefere-se utilizar alinhamentos timos para gerarem os resultados, exceto nos casos onde milhares de alinhamentos simples devem ser realizados. De forma contrria, considera-se um alinhamento mltiplo quando trs ou mais seqncias devem ser alinhadas entre si. No fundo, o alinhamento mltiplo montado a partir do alinhamento par a par de cada uma das seqncias com todas as outras, seguido por um outro procedimento que ir gerar o resultado final do alinhamento de todas contra todas. Assim, se 10 seqncias so comparadas entre si, sero necessrias 10! (fatorial de 10) comparaes de seqncias, o que representam
22
3.628.800 comparaes. E exatamente por isso que os programas heursticos so preferidos para gerar esse tipo de resultado.
3.6. Matrizes de comparao Outra coisa de suma importncia quando da realizao de qualquer alinhamento de seqncias a matriz de substituio que utilizada. Na figura 3.2. mostrado um alinhamento e o nmero de pontos dados para coincidncias (matches), divergncias (mismatches), abertura de gaps (gap opening) e extenso de gaps (gap extension). Entretanto, ao utilizarmos matrizes de substituio podemos dar valores diferentes para coincidncias de diferentes nucleotdeos ou aminocidos. Vale notar que o resultado de um alinhamento de seqncias pode ser completamente diferente dependendo da matriz de substituio utilizada. As matrizes de comparao so principalmente utilizadas durante o alinhamento de seqncias de protenas e isso se deve ao fato de que existem aminocidos que so mais (ou menos) parecidos entre si do que outros. H aminocidos com cargas polares, apolares ou sem carga e a mudana, em uma protena, de um aminocido apresentando uma determinada caracterstica para outro da mesma caracterstica menos drstica do que uma mudana para um aminocido apresentando caracterstica diferente. Portanto, as matrizes de substituio so extremamente utilizadas no alinhamento de seqncias proticas. Mesmo no caso de seqncias de nucleotdeos so mais comuns as mutaes conhecidas como transies do que as transverses. Nas transies, a mutao ocorre entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina para pirimidina (C para T ou T para C), enquanto nas transverses ocorre a mudana de uma purina para uma pirimidina ou o contrrio. Dessa forma, ao utilizarmos matrizes de substituio, podemos dar mais pesos para as transverses do que para as transies, o que faria com que o resultado fosse mais relevante e pudesse estar mais relacionado com a evoluo, por exemplo. As matrizes de substituio mais comuns para seqncias nucleotdicas so a mat50 e a mat70, enquanto para seqncias proticas as mais conhecidas so as matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por exemplo, so baseadas na observao das freqncias de substituio em blocos de alinhamentos locais de protenas relacionadas. Existem vrias matrizes BLOSUM e elas devem ser utilizadas para comparar protenas contendo um determinado valor de identidade, por exemplo, a matriz mais utilizada pelos programas a BLOSUM62, que foi montada para comparar protenas que apresentem 62% de aminocidos idnticos. Abaixo vemos as matrizes de substituio de nucleotdeos mat50 e mat70. Podemos perceber que a matriz mat70 apresenta valores menores para algumas substituies. Isso faz com que o valor final do alinhamento entre duas seqncias de DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local de um menor nmero de bases do que a matriz mat50, que estende o alinhamento um pouco mais. Bases A C G T Y R N A 2 -2 0 -2 -2 1 0 C -2 2 -2 0 1 -2 0 G 0 -2 2 -2 -2 1 0 T -2 0 -2 2 1 -2 0 Y -2 1 -2 1 1 -2 0 R 1 -2 1 -2 -2 1 0 N 0 0 0 0 0 0 0
23
Tabela 3.3: Matriz de substituio de nucleotdeos mat50. O valor dado para cada troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa purinas e o N representa qualquer nucleotdeo. Bases A C G T Y R N A 2 -2 -1 -2 -2 0 0 C -2 2 -2 -1 0 -2 0 G -1 -2 2 -2 -2 0 0 T -2 -1 -2 2 0 -2 0 Y -2 0 -2 0 0 -2 0 R 0 -2 0 -2 -2 0 0 N 0 0 0 0 0 0 0 Tabela 3.4: Matriz de substituio de nucleotdeos mat70. O valor dado para cada troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa purinas e o N representa qualquer nucleotdeo.
3.7. Exemplos reais de alinhamentos a) Alinhamento global simples entre seqncias de DNA, usando o algoritmo Needleman-Wunsch.
######################################## # Program: needle # Rundate: Fri Nov 19 15:57:40 2004 # Align_format: srspair # Report_file: 1x2.needle ######################################## #======================================= # # Aligned_sequences: 2 # 1: Seq1 # 2: Seq2 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 736 # Identity: 464/736 (63.0%) # Similarity: 464/736 (63.0%) # Gaps: 272/736 (37.0%) # Score: 2261.0 # # #======================================= Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 1 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 1 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC CTTTCAAGATGAACG ||||||||||||||| 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA |||||||||||||||||||||||||||||||||||||||||||||||||| 1 0 50 0 100 15 150 65
24
Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT |||||||||||||||||||||||||||||||||||||||||||||||||| 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG |||||||||||||||||||||||||||||||||||||||||||||||||| 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT |||||||||||||||||||||||||||||||||||||||||||||||||| 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT |||||||||||||||||||||||||||||||||||||||||||||||||| 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG |||||||||||||||||||||||||||||||||||||||||||||||||| 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 316 CAGTCCATAA---------------------------------------|||||||||| 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 326 -------------------------------------------------501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT ||||||||||||||||||||||||||||||||||||||||| 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT |||||||||||||||||||||||||||||||||||||||||||||||||| 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA |||||||||||||||||||||||||||||||||||||||||||||||| 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 465 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 464 736 200 115 250 165 300 215 350 265 400 315 450 325 500 325 550 366 600 416 650 464 700
#--------------------------------------#---------------------------------------
b) Alinhamento local simples entre as mesmas seqncias de DNA, usando o algoritmo BLAST.
BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= Seq1 (464 letters)
25
Database: seq2 1 sequences; 736 total letters Searching.done Sequences producing significant alignments: Seq2 >Seq2 Length = 736 Score = 652 bits (329), Expect = 0.0 Identities = 329/329 (100%) Strand = Plus / Plus Score E (bits) Value 652 0.0
Query: 1
ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435
Query: 301 acacacatatcaaagcagtccataaaggt 329 ||||||||||||||||||||||||||||| Sbjct: 436 acacacatatcaaagcagtccataaaggt 464
Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
26
Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698 Database: seq2 Posted date: Nov 19, 2004 3:58 PM Number of letters in database: 736 Number of sequences in database: 1 Lambda 1.37 Gapped Lambda 1.37 K 0.711 K 0.711 H 1.31 H 1.31
Matrix: blastn matrix:1 -3 Gap Penalties: Existence: 5, Extension: 2 Number of Hits to DB: 2 Number of Sequences: 1 Number of extensions: 2 Number of successful extensions: 2 Number of sequences better than 10.0: 1 Number of HSP's better than 10.0 without gapping: 1 Number of HSP's successfully gapped in prelim test: 0 Number of HSP's that attempted gapping in prelim test: 0 Number of HSP's gapped (non-prelim): 2 length of query: 464 length of database: 736 effective HSP length: 9 effective length of query: 455 effective length of database: 727 effective search space: 330785 effective search space used: 330785 T: 0 A: 0 X1: 6 (11.9 bits) X2: 15 (29.7 bits) S1: 12 (24.3 bits) S2: 8 (16.4 bits)
c) Alinhamento global mltiplo entre as mesmas seqncias de DNA (e outras duas mais), usando o algoritmo CLUSTALW.
CLUSTAL W (1.81) multiple sequence alignment Seq1 Seq4 Seq2 Seq3 ------------------------------------------------------------GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 Seq4 Seq2 Seq3
-----------------------------------------------------------ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
27
Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2 Seq3 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT *************************************** TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT ************************************************************ TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG ************************************************************ ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ************************************************************ GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT ************************************************************ TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------************************************************** -----------------------------------------------------------TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC ---------------------------------------------------------------------------------------------------------------------------------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA ******************************* AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA *************************************************** ******** AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA--------------AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA ******** ************************************ -----------------------------------------------------------CACATAGAAAGCATTCACGAAAG------------------------------------CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT
Seq1 Seq4 Seq2 Seq3
Seq1 Seq4 Seq2 Seq3
Seq1 Seq4 Seq2 Seq3
Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2 Seq3 Seq1 Seq4 Seq2
28
Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT
Seq1 Seq4 Seq2 Seq3
------------------------------------------------------------------------------------------------------------CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC
3.8. Referncias Bibliogrficas 1 2. 3. 4. NCBI Glossrio --http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html BLAST -- http://www.ncbi.nlm.nih.gov/BLAST/ BLAST Overview -- http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html BLAST Guide: Deciphering the Output http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html 5. BLAST Query Tutorial http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html 6. NCBI Similarity Page http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html 7. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002.
3.9. Brainstorm 1 2 Cite duas possveis utilidades do alinhamento de seqncias no campo da bioinformtica. Qual a diferena entre alinhamento global e local? Cite o nome de ferramentas que fazer um ou outro alinhamento. Voc capaz de perceber as diferenas entre os resultados do alinhamento de duas seqncias idnticas atravs de diferentes ferramentas de alinhamento? Explique as diferenas nos resultados mostrados nos itens 4.7. a) e b) possvel realizar alinhamentos utilizando uma seqncia de DNA e outra de protena? Como voc acha que isso poderia ser feito? O BLAST implementa esse tipo de ferramenta? Qual o(s) programa(s) do BLAST fazem isso? Qual a diferena entre alinhamentos simples e mltiplos? Quais so as ferramentas de alinhamento (timo ou heurstico) mais indicadas para trabalhar com cada um desses tipos de alinhamento? Por qu? Cite as principais aplicaes das ferramentas que utilizam heurstica para produzir um alinhamento de seqncias. Entre no site do NCBI, Nucleotide e obtenha as seqncias de nmero de acesso AF117710 e AF181832 (da mesma forma que na aula anterior). Acesse o site do programa BLAST2Sequences (http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2. cgi). Copie a sequencia do primeiro gene na regio apropriada, assim como a sequencia do segundo gene e clique em Align. Classifique o tipo de alinhamento realizado em todos os aspectos que conseguir? Quais foram as posies que mostraram diferenas entre as duas seqncias? Houve diferenas na regio que codifica a protena? O que so as matrizes de substituio e qual a relevncia delas no alinhamento de seqncias?
5 6
29
CAPTULO 4
Montando um genoma
Seqenciar o DNA agora uma das tarefas mais fceis de realizar, alm de servir hambrgueres. Karry Mullis, prmio Nobel Iniciando nossa Interao Nos dias de hoje, a arte de seqenciar um DNA e at mesmo de montar um genoma de uma bactria so tarefas relativamente tcnicas. claro, anlise deste genoma e o entendimento da relao do genoma com as caractersticas e a forma como um organismo vive so tarefas altamente complexas e que exigem um grande esforo cientifico a ser realizado pelos maiores especialistas em todo o mundo.
4.1.
Sobre genomas eucariticos e procariticos
Nos dias de hoje, a arte de seqenciar um DNA e at mesmo de montar um genoma de uma bactria so tarefas relativamente tcnicas. claro, anlise deste genoma e o entendimento da relao do genoma com as caractersticas e a forma como um organismo vive so tarefas altamente complexas e que exigem um grande esforo cientifico a ser realizado pelos maiores especialistas em todo o mundo. A montagem de genomas de organismos procariotos (bactrias e arqueobactrias) consiste num trabalho muito mais simples do que a montagem de genomas de organismos eucariticos (protozorios, fungos, plantas e animais). E isso se deve a vrias caractersticas freqentemente comuns aos genomas bacterianos. Estes so comumente pequenos -- apresentado apenas alguns milhes de pares de bases --, circulares e contm uma baixa taxa de seqncias repetitivas. J os genomas de organismos eucariticos so grades, normalmente na ordem de bilhes de pares de bases, apresentam disposio do genoma em diversos cromossomos, que devem ser montados separadamente e, ainda, apresentam uma grande quantidade de seqncias repetitivas. Se considerssemos o genoma como um quebra cabea, os genomas bacterianos teriam apenas poucas peas e todas seriam facilmente encaixveis. De forma contrria, os genomas eucariticos poderiam ser considerados um conjunto de diversos quebra-cabeas (representando diferentes cromossomos) com centenas ou milhares de peas, com todas elas embaralhadas entre os quebra-cabeas e onde determinadas peas parecessem muito com outras, tanto dentro de um mesmo quebra-cabea quanto entre quebra-cabeas diferentes, dificultando de forma drstica a montagem. Por isso, os genomas eucariticos so montados aos poucos, sendo que primeiramente so identificadas as partes mais fceis, no repetitivas, e assim montado um chamado scaffold, ou esqueleto, do genoma. Assim, os genomas eucariticos normalmente so montados por equipes bem maiores e mais bem equipadas de cientistas, apresentando ainda uma plataforma de bioinformtica mais complexa e organizada.
30
Dessa forma, so utilizadas diferentes tcnicas de seqenciamento para se obter seqncias de um genoma eucarioto ou procarioto. Em bactrias, normalmente todo o DNA quebrado em pedacinhos minsculos em uma tcnica conhecida como shotgun ou whole genome shotgun. Esses pequenos pedacinhos de genoma (contendo aproximadamente 2.000 pares de bases) so ligados em vetores de clonagem bacterianos, os plasmdeos. Assim, cada plasmdeo seqenciado uma vez a partir de cada uma de suas extremidades (direita e esquerda) e as seqncias de DNA produzidas so posteriormente concatenadas para que o genoma seja montado por inteiro. J no caso dos grandes genomas de organismos eucariticos, os fragmentos genmicos so primeiro divididos em grandes vetores de clonagem como BACs (Bacterial Artifical Chromosome ou, em portugus, cromossomo artificial de bactria) ou YACs (Yeast Artificial Chromosome ou cromossomo artificial de levedura), que podem abrigar seqncias de DNA de centenas de milhares de bases. No chamado shotgun hierrquico, essas seqncias presentes nos BACs ou YACs que so alvo do chamado shotgun onde, agora sim, essas seqncias so quebradas em outras contendo aproximadamente 2.000 pares de bases e ligadas em plasmdeos bacterianos cujas extremidades sero seqenciadas. Dessa forma, os BACs e YACs so montados separadamente e, posteriormente, realizada a montagem do genoma atravs da sobreposio das seqncias destes grandes vetores.
Figura 4.1. a) Na estratgia de shotgun, todo o DNA genmico de um organismo fragmentado em pequenos pedaos (1), que so clonados em vetores de pequeno porte, como plasmdeos, para o posterior seqenciamento. b) Na estratgia de shotgun hierrquico, normalmente utilizada para grandes genomas, realizam-se dois passos. (1) Primeiramente fragmenta-se o genoma em grandes pedaos, que so clonados em vetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se uma segunda etapa de shotgun, onde as seqncias contidas nesses vetores so fragmentadas em pequenos pedaos e clonadas em vetores de pequeno porte, que sero seqenciados. Retirado de Prosdocimi et al., 2003.
4.2.
Base-calling
Uma frase clssica do meu co-orientador de doutorado, o Prof. Miguel Ortega, que um mito da genmica o de que os seqenciadores de DNA que seriam responsveis por gerar a seqncia de bases da molcula desejada. Conforme vimos
31
na animao apresentada na segunda aula, o seqenciador apenas responsvel pela leitura das molculas marcadas com cada um dos fluorforos durante a eletroforese. Na verdade, necessrio um programa de computador para pegar esses dados sobre qual fluorforo passou a cada instante e transformar esse dado num conjunto de letras que represente a seqncia de bases do DNA. E um programa que faa isso conhecido como um nomeador de bases ou base-caller. Alm de gerar a seqncia de bases que representa a molcula de DNA seqenciada, o base-caller produz tambm um valor de qualidade associado a cada uma das bases. Assim, possvel saber quais foram as regies seqenciadas com maior ou menor qualidade. O algoritmo mais conhecido e utilizado para realizar a nomeao das bases (ou base-calling) o PHRED. O PHRED utiliza um algoritmo baseado na anlise de Fourier para reconhecer os dados brutos gerados pelo seqenciador e produzir tanto a seqncia de bases quanto a qualidade de cada uma delas. A qualidade das bases dada com relao probabilidade logartmica da base estar incorreta e a frmula utilizada pelo PHRED para chegar a esta qualidade dada pela seguinte frmula:
QUALIDADE PHRED = -10 * log10 (Probabilidade de Erro)
Assim, com os dados brutos do seqenciador, o PHRED atribui a cada base uma chance desta estar incorreta e, utilizando a frmula acima, associa um valor de qualidade cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela base tem uma chance em dez de estar incorreta (10%). Como o valor est em escala logartmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%). Freqentemente, aceita-se que um valor de PHRED igual a 20 suficiente para aceitar uma base como real ou utiliza-se para aceitar uma regio de boa qualidade. Entretanto, trabalhos recentes tm mostrado que podemos confiar em valores relativamente mais baixos (Prosdocimi et al., 2004). Exemplos de arquivos produzidos pelos programas de base-calling: (a) Arquivo de seqncia no formato FASTA e (b) arquivo .QUAL apresentando a qualidade das bases. a) > Seq1 ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC b) > Qual1 10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18 25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5
4.3.
Cross-match
Como foi dito no primeiro item desta aula, as seqncias de DNA geradas em projetos genoma so primeiramente clonadas em molculas de DNA plasmidial. Dessa forma, algumas vezes pedaos de seqncias dessa molcula bacteriana acabam sendo produzidas em conjunto com as molculas do DNA que se deseja produzir. Como as molculas dos vetores de clonagem no representam o genoma que se
32
deseja montar, preciso mascar-las antes de se realizar a montagem do genoma. E, para isso, utiliza-se um software conhecido como Cross-match. O cross-match basicamente um algoritmo que realiza um alinhamento local entre duas seqncias de nucleotdeos quaisquer e permite a formatao do resultado de diversas maneiras diferentes. Normalmente, executa-se o cross-match utilizando dois arquivos de entrada e a opo screen. O primeiro arquivo deve apresentar as seqncias geradas no projeto que se deseja retirar as partes relacionadas s seqncias bacterianas e o segundo arquivo deve conter uma ou mais seqncias de vetores de clonagem (como plasmdeos) que se deseja procurar no primeiro arquivo. Basicamente, o cross-match realiza o alinhamento entre todas as seqncias do primeiro e do segundo arquivo utilizando o algoritmo SWAT (veja aula 4). Ele apresenta ainda um valor limite para considerar o alinhamento entre as seqncias como vlido. Se o alinhamento entre uma seqncia do primeiro arquivo e uma outra do segundo arquivo for vlido, o programa mascara a regio do primeiro arquivo onde ela foi similar com a do segundo, colocando letras Xs no local. Isso evita que essas regies sejam utilizadas para o agrupamento das seqncias, como ser mostrado a seguir. Exemplo de seqncia que apresentava regio inicial contendo partes de vetor de clonagem. Uma seqncia desse tipo pode ser encontrada no arquivo screen, obtido como resultado do algoritmo cross-match: > Seq1.screen XXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTC TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
4.4.
Agrupamento de seqncias
O agrupamento de seqncias (ou sequence assembly) o procedimento que gera, realmente, os contigs genmicos e permite a montagem do genoma per si. A montagem do genoma importante porque ainda no existe nenhuma tcnica que permita o seqenciamento de molculas de DNA de mais de mil pares de bases. Em uma corrida normal de seqenciamento, gerada em um seqenciador em larga escala, comum que sejam produzidas cerca de 600 bases da seqncia de DNA desejada. Com sorte possvel produzir at mil bases da seqncia, mas um seqenciamento to bom no muito comum. E como as molculas de DNA genmicas freqentemente apresentam milhares ou milhes de pares de bases, preciso montar os fragmentos, de seiscentos em seiscentos, at que seja possvel gerar toda a seqncia do genoma. Portanto podemos fazer uma analogia da montagem de genoma como se o mesmo se constitusse num livro de mil pginas cujas palavras e a ordem delas seja completamente desconhecida. O que os cientistas fazem pegar uma grande quantidade de livros idnticos, digamos trinta deles e picotarem todos os livros em trechos contendo uma quantidade fixa de palavras -- duas mil, por exemplo -- num processo de shotgun de palavras. Guarde os nmeros e no se perca. Essas palavras acabam tendo que ser inseridas num outro livro -- o plasmdeo --, esse j montado e de frases conhecidas. Ento acontece a leitura de seiscentas palavras por vez desse livro-plasmdeo. E so lidas milhares de seqncias de seiscentas palavras inseridas em livros-plasmdeos diferentes. Primeiramente, ento, necessrio observar essas palavras lidas dos livros-plasmdeos ligados a uma parte do livro genmico e retirar as frases que sabemos serem do plasmdeo apenas, e no do livro que estamos tentando montar. O cross-match o programa que faz isso. Ele compara as seqncias lidas com a seqncia do livro-plasmdeo e, onde ele encontrar frases do livro plasmdeo,
33
ele troca-as por letras X. Ento, depois do cross-match, teremos vrios conjuntos de aproximadamente seiscentas palavras que sabemos ser de nosso livro genmico. Agora preciso mont-lo. Para isso teremos que ir lendo todas os conjuntos de frases e observando onde as frases se sobrepem para podermos junt-las e gerar, por exemplo, um captulo do livro (que poderia ser uma analogia montagem de um BAC ou de um cromossomo inteiro). Veja o exemplo:
A seguir temos uma Fbula Fabulosa do escritor Millr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqncia completa da fbula. > Frase 1 sabedoria e calor que fazem os seres humanos - "mas eu no". MORAL DA HISTRIA: NO MORRE A PASSARADA QUANDO MORRE UM PSSARO. > Frase 2 ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e > Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?" > Frase 4 no morreu h cinco anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e calor que fazem os seres humanos - "mas eu no".
O genoma montado da mesma maneira que voc realizou para montar essa fbula do Millr chamada A viva. (Para ler mais fbulas do escritor, acesse http://www.millor.com.br.) Vrias seqncias representando pedaos de genoma so gerados e observa-se a posio onde elas se sobrepem. Realizando a sobreposio de vrios trechos de seqncia possvel montar todo o genoma. Entretanto, como j foi dito, um genoma apresenta milhes ou bilhes de seqncias de nucleotdeos e, portanto, no possvel realizar esta montagem mo. Para isso existem algoritmos de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP o algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.
Figura 4.2. O agrupamento de seqncias baseado no alinhamento e no escore do alinhamento de seqncias.
34
A figura 4.2 idntica figura 3.2, mostrada no captulo anterior. A diferena basicamente o contexto com o qual ela mostrada agora. A figura mostra o alinhamento entre duas seqncias de DNA e mostra os escores dados para o alinhamento das seqncias. O escore total desse alinhamento igual a trs, mostrado em alaranjado. E exatamente baseando-se nesse escore que funciona um programa de montagem de genoma, como o PHRAP. O PHRAP apresenta um parmetro muito importante chamado de minscore, que representa o valor mnimo do escore do alinhamento que ele utiliza para dizer que duas seqncias so parecidas o suficiente e que podem ser reunidas para gerar uma seqncia maior. Se o alinhamento entre duas seqncias apresenta um escore menor do que o minscore, as seqncias no so agrupadas e considera-se que representam partes distintas de um mesmo genoma. J se o alinhamento entre duas seqncias apresenta um escore maior do que o minscore, o PHRAP considera que as seqncias esto na mesma posio e produz a chamada seqncia consenso, que consiste na concatenao das duas seqncias entre si, da mesma forma que voc fez com a fbula do Millr.
4.5.
Sobre a cobertura dos genomas
Algo que interessante de ser notado a cobertura necessria de seqenciamento para se produzir um genoma. Em nossa analogia do livro, pegamos trinta livros e picotamos todos eles em partes sendo que, posteriormente, lemos vrias partes deles para tentarmos montar um livro inteiro novamente. Se nosso livro tivesse, por exemplo, seis mil palavras e nossas partes picotadas tivessem pouco mais de seiscentas palavras cada, teoricamente precisaramos apenas de cerca de dez partes para montar um livro inteiro, certo? Errado! Como as dez partes so pegas aleatoriamente, de se esperar que haja uma certa redundncia nas frases obtidas. Em nosso exemplo da fbula do Millr, podemos ver que a frase 2 totalmente redundante e que conseguiramos montar toda a fbula mesmo sem ela. Entretanto, qualquer outra combinao de trs frases (exceto pelas frases 1, 3 e 4), impediria que a montagem da fbula fosse feita de forma completa, ainda que o nmero de palavras somadas entre as trs frases produza um nmero maior do que o da fbula completa. Voltando anlise de genomas, isso significa que certas vezes damos o azar estatstico de no conseguirmos obter toda a seqncia do genoma e, assim, temos que seqenciar mais molculas para conseguirmos fechar nosso genoma. E, considerando o grande tamanho dos genomas, normalmente considera-se necessrio produzir um nmero de bases que seja de 8 a 10 vezes maior do que a seqncia completa do genoma inteiro para que seja possvel montar esse genoma completamente! E, ainda assim, muitas vezes preciso utilizar outras tcnicas mais complexas para que o genoma seja efetivamente terminado. E isso se deve ao fato de que algumas regies do DNA parecem apresentar uma maior dificuldade de serem cortadas em partes ou clonadas nos vetores bacterianos (plasmdeos). Assim, a parte mais complexa de toda a montagem do genoma consiste no fechamento da seqncia completa do mesmo. E, depois de completo, cada uma de suas partes deve ser identificada, no processo de anotao genmica, que ser tema do captulo 7.
35
4.6.
Referncias Bibliogrficas
1. PHRED, PHRAP, CONSED -- http://www.phrap.org 2. Ewing B, Hillier L, Wendl MC, Green P. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res. 1998 Mar;8(3):175-85. 3. Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res. 1998 Mar;8(3):186-94. 4. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 5. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002.
4.7.
Brainstorm
1. Por que quando sequenciamos o genoma de um organismo temos que levar em considerao se ele eucarioto ou procarioto? Quais so as diferentes estratgias de sequenciamento desses genomas? 2. Qual a importncia dos algoritmos de base calling? Se uma determinada base tem um valor de qualidade igual a 40, qual a chance dela estar incorreta? 3. Por que o software cross-match importante na montagem de genomas? 4. Qual o principal parmetro utilizado pelo programa PHRAP para realizar o agrupamento das seqncias de DNA? Como ele funciona? 5. Apresente a fbula do Millr totalmente montada. 6. Digamos que o valor de minscore do nosso programa fosse igual a 2 e apresente uma das possveis seqncias consensos que seria gerada a partir da concatenao das duas seqncias da figura 4.2. O que voc faria para escolher qual base estaria no consenso no caso de gaps e mismatches? 7. Por que no suficiente seqenciar apenas seis mil bases para montar um genoma deste tamanho (seis mil bases)?
36
CAPTULO 5
Anlise de Transcriptomas
5.1. As ESTs As ESTs (Expressed Sequence Tags, ou Etiquetas de Seqncias Expressas) correspondem a pedaos de genes expressos, derivados dos RNAs mensageiros, que so utilizados na anlise de transcriptomas de organismos. So chamadas etiquetas porque correspondem apenas a pedaos dos genes que um organismo expressa em uma determinada situao. Essas etiquetas, entretanto, permitem que saibamos quais genes esto sendo produzidos por uma clula numa determinada condio e permitem tambm que estudos comparativos possam ser feitos. Um estudo clssico feito com ESTs est relacionado a clulas tumorais, onde se compara os genes expressos em uma clula normal e em uma clula cancerosa e, dessa forma, pode-se tentar compreender como o processo tumoral leva expresso diferenciada de genes.
Figura 5.1. Produo de ESTs e ORESTES. As etiquetas de seqncias expressas (ESTs) so obtidas atravs, primeiramente, da transcrio reversa de um conjunto de
37
mRNAs expressos numa clula, produzindo as fitas de DNA complementar (cDNA). Aps esse procedimento, utiliza-se uma RNAse H para digerir as seqncias de RNA inicial e produzida a segunda fita de DNA, gerando a molcula de cDNA fita dupla. Essa molcula normalmente ligada em vetores de clonagem (como plasmdeos) e so utilizados iniciadores para o seqenciamento das extremidades 5 ou 3 do cDNA em apenas uma rodada de seqenciamento. As seqncias obtidas so as chamadas ESTs. A tcnica de ORESTES uma alternativa produo de ESTs onde, ao contrrio destas, pega-se preferencialmente a parte central das seqncias gnicas.
5.2. Histrico das ESTs O seguinte trecho foi adaptado do livro Desvendando o Genoma da editora Companhia das Letras, escrito por Kevin Davies (2001, captulo 3) e apresenta um interessante histrico de como foram redescobertas as seqncias de ESTs e como isso gerou um grande impacto na cincia da poca. Em junho de 1991, o pesquisador J. Craig Venter e colaboradores apresentou um artigo na revista americana Science que revolucionaria as estratgias de sequenciamento de transcriptomas em todo o mundo. O artigo era intitulado Sequenciamento de DNA Complementar: Etiquetas de Seqncias Expressas e o Projeto Genoma Humano e identificava a seqncia de mais de 300 novos genes humanos ativos no crebro, obtidos aleatoriamente a partir de cerca de 600 clones de cDNA. De todas as seqncias produzidas, Venter havia conseguido identificar tanto genes humanos j conhecidos quanto genes novos e outros que apresentavam similaridades com genes identificados de outros organismos; um deles, por exemplo, apresentou uma identidade significativa com o gene NOTCH, uma importante molcula de sinalizao intracelular conhecida na mosca-das-frutas. E essa alta similaridade entre genes presentes em espcies separadas h milhes de anos indicava que possivelmente eles apresentavam funes importantes no metabolismo celular, como foi posteriormente comprovado atravs de estudos experimentais. O impacto causado na comunidade cientfica por este artigo que publicava o primeiro estudo de genoma em larga-escala foi maior do que a soma de suas partes atravs da analse de cada um dos genes identificados. O sequenciamento dessas etiquetas, as ESTs, consistia em algo redundante e tecnicamente sujo, devido a presena de vrios erros nas seqncias. Apesar disso, em uma nica publicao, Venter havia identificado mais de 10% dos genes que toda a comunidade produzira em quase duas dcadas, sendo que o GenBank, poca, possua menos de 3 mil seqncias de genes humanos. Um novo tipo de dilogo cientfico, que viria a se tornar comum na era da genmica, anos mais tarde, era inaugurado por aquele artigo revolucionrio. Venter havia conseguido bolar uma tcnica que possibilitava a produo de centenas de seqncias de cDNAs de uma forma rpida e inteligente e previa que, com esta abordagem, conseguiria sequenciar a maioria dos cDNAs humanos em alguns anos. Alm disso, previa tambm que em breve alguns melhoramentos nas tecnologias de sequenciamento do DNA tornariam exeqvel o exame essencialmente completo do conjunto de genes expressos de um organismo. E essas novidades abalavam as opinies dos principais responsveis naquele momento pelo sequenciamento do genoma humano, algo que questiona suas autoridades. O principal argumento destes, no entanto, era o de que a abordagem de sequenciamento de ESTs no considerava as informaes do DNA que no eram transcritas em RNA. Assim o ganhador do prmio Nobel e co-descobrir da estrutura do DNA, James Watson, poca diretor do Projeto Genoma do NIH, sustentava corretamente que a tcnica popularizada por Venter no substitua a anlise genmica,
38
no que este concordava e argumentava que o sequenciamento de ESTs deveria no substituir mas complementar as anlises de genoma. Oito meses depois, Venter publicava um artigo na Nature descrevendo as seqncias parciais de cDNA de mais 2375 genes expressos no crebro, mostrando que seu grupo de trabalho era capaz de gerar, sozinho, um volume monstruoso de dados de seqncias de ESTs. Em menos de um ano o laboratrio de Venter tinha sido capaz de sequenciar duas vezes o total de genes j conhecidos at ento. Alm disso, seu laboratrio continuava gerando cada vez mais seqncias, ininterruptamente. Crticas surgiam sobre as contaminaes de algumas seqncias e sobre os erros que estas apresentavam, mas nada que derrubasse o status que Venter j havia alcanado. E, ainda que este pesquisador j tivesse concordado do fato de que o sequenciamento de ESTs no era alternativa para o projeto genoma, o editor da Nature John Maddox ainda ressaltava no editorial da mesma revista onde fora publicado o segundo artigo de Venter: Na esteira da sada de James Watson do Projeto Genoma Humano dos Estados Unidos, existe o perigo de que a abordagem de cDNA seja apresentada como uma alternativa mais barata para completar o sequenciamento [do genoma], o que ela no .
5.3.
Agrupamento de ESTs
Como as ESTs representam o genoma expresso em uma clula num determinado momento, comum haver redundncia gnica quando do sequenciamento dessa molculas. E isso se deve ao fato de que uma clula pode precisar muito da presena de algum gene num determinado momento e, nesse caso, ela ir produzir uma grande quantidade de molculas de mRNA do gene em questo. Entretanto, quando o pesquisador quer analisar seu transcriptoma, ele deve identificar os genes expressos e, para ele, melhor identificar os genes apenas uma vez. Para isso feito o agrupamento ou clustering de ESTs. Da mesma forma como feita a montagem de genoma, aqui tambm se utiliza o PHRAP para montar cada um dos genes seqenciados. Dessa vez, entretanto, no se espera que sejam formadas molculas muito grandes, os genes geralmente apresentam algo em torno de dois mil pares de bases. E os genes normalmente no apresentam regies de sobreposio com outros genes, de forma que cada um dos genes aqui montado separadamente. Na anlise de clustering ou agrupamento de ESTs, as seqncias dessas molculas do organismo em questo so utilizadas como entrada em um programa. Este deve comparar essas seqncias entre si, de forma a encontrar quais delas so idnticas ou contm regies parecidas o suficiente para que sejam reunidas em uma s, assim como na anlise genmica. Assim, o programa apresenta uma sada contendo as seqncias que foram agrupadas chamadas de consensos ou contigs e as seqncias que no foram reunidas (por no apresentarem similaridade suficiente com nenhuma outra) chamadas de singlets. Cada uma das seqncias resultantes do agrupamento (seja ela uma singlet ou um contig) chamada de unique (figura 5.2), que consiste no conjunto no redundante de molculas. Considerando uma anlise ideal, cada uma das seqncias unique deve representar um gene distinto. Entretanto, na prtica, a presena de famlias gnicas (apresentando regies de similaridade dentro dos genes) e de genes duplicados dificulta a obteno desse resultado ideal e, muitas vezes, a seqncia unique pode representar mais de um gene. Em outras ocasies, um mesmo gene pode estar representado por mais de um unique, sendo que um dos uniques pode corresponder, por exemplo, extremidade 5 de um determinado gene e outro extremidade 3 do mesmo.
39
Figura 5.2. Agrupamento de seqncias de ESTs. O agrupamento das seqncias produz as seqncias no-redundantes, chamadas de uniques. As uniques so o conjunto das seqncias consenso mais as seqncias singlets. O agrupamento das seqncias importante devido, principalmente, aos seguintes fatores: (1) elimina a redundncia das seqncias, (2) aumenta o tamanho das seqncias facilitando a anotao por homologia (Oliveira & Johnston 2001), (3) aumenta o nvel de confiabilidade de cada seqncia (Miller et al., 1999). Diferentes abordagens tm sido utilizadas para o agrupamento de seqncias de ESTs. O Unigene do NCBI utiliza comparaes de seqncias em vrios nveis de rigor para agrupar as seqncias em consensos (http://www.ncbi.nlm.nih.gov/UniGene/build.html) (Schuler 1997). No TIGR, os ndices gnicos so formados utilizando um software desenvolvido por eles mesmos, o TIGR Assembler, ou o CAP3 (Liang et al., 2000). J no projeto genoma humano (HPG) as seqncias so agrupadas utilizando-se o software PHRAP (International Human Genome Sequencing Consortium 2001).
5.4.
O genoma e o transcriptoma
No final da seo 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que existia o perigo de que a abordagem de cDNA seja apresentada como uma alternativa mais barata para completar o sequenciamento [do genoma], o que ela no . Vale a pena, portanto, neste momento, discutirmos as diferenas entre as anlises de genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas anlises exclui a outra e so estudos que, apesar de relacionados, provm respostas para perguntas diferentes. A molcula de DNA esttica e est presente, com a mesma constituio, em todas as clulas do organismo. A decifrao desse contedo esttico de DNA a tarefa da genmica. J o contedo de RNA de uma determinada clula depende do tempo e das condies qual ela est sendo submetida. O transcriptoma mede a parte do genoma que est sendo utilizada num determinado momento. E essa parte do genoma expresso diferente para cada tipo celular. Existem genes que so expressos apenas na pele, outros no crebro e alguns nos testculos. Alguns genes so ainda mais expressos quando a clula est submetida a um choque trmico, restrio calrica ou falta de oxignio. Enquanto o genoma apenas um, existem vrios transcriptomas possveis para uma mesma espcie. Algumas perguntas, entretanto, s podem ser obtidas quando se observa o genoma expresso, enquanto outras, apenas quando se observa o genoma esttico. Por exemplo, por mais que se obtenha seqncias de ESTs de vrios diferentes tecidos de um organismo, nunca possvel dizer que ele no apresenta um determinado gene atravs de anlises transcriptmicas. De forma contrria, quando se obtm toda a seqncia de genoma do organismo possvel saber todo o repertrio de genes que ele possui para realizar alguma tarefa metablica. Ao mesmo tempo, atravs da anlise genmica impossvel saber, por exemplo, qual o repertrio gnico que
40
super-expresso numa determinada condio como, por exemplo, quando a clula se torna cancergena. Dessa forma, as anlises de genoma e transcriptoma so complementares e ambas so importantes para responder perguntas especficas. Existem, entretanto, outras formas de anlise do transcriptoma que no sejam atravs de seqncias de ESTs, como o SAGE e a anlise dos microarranjos de DNA (ou microarrays, os chips de DNA).
5.5.
SAGE Serial Analysis of Gene Expression
Enquanto uma EST tem aproximadamente cerca de 600 pares de bases, permitindo uma identificao quase inequvoca do gene expresso, outras tcnicas, como o SAGE, permitem uma identificao mais exaustiva porm menos precisa do gene que se deseja obter. Na tcnica de SAGE so concatenados fragmentos de quatorze pares de bases de diversos mRNAs diferentes, formando uma longa molcula hbrida contendo vrios pedaos de diferentes mRNAs. Assim, uma molcula de cerca de 600 pares de bases lida no seqenciador, apresentando uma seqncia ininterrupta das chamadas SAGE tags, cada uma contendo quatorze pares de bases. Dessa forma, uma nica seqncia de SAGE apresenta informao sobre diversos mRNAs diferentes que podem estar expressos em uma certa clula. Um problema, entretanto, da tcnica, que muitos genes apresentam fragmentos internos comuns e, muitas vezes, fica difcil saber ao certo qual gene foi expresso quando se observa uma etiqueta de SAGE muito comum em diferentes genes. Voltando analogia do livro, agora seria como se voc quisesse descobrir qual pgina do livro que seu colega est lendo, mas ele te d apenas trs palavras consecutivas para que voc encontre a pgina. claro que, dependendo do livro, aquela combinao de trs palavras vai estar presente em apenas uma pgina. Mas pode haver livros onde essa combinao possa estar presente em dez pginas diferentes. E, dessa forma, fica difcil identificar precisamente a partir de qual pgina (ou gene) vieram aquelas palavras (ou a seqncia de quatorze nucleotdeos). Apesar disso, a tcnica bastante utilizada e til em vrios casos. A grande vantagem da utilizao da tcnica de SAGE que ela permite amostrar uma grande quantidade de genes, cerca de quarenta para cada seqncia produzida, e apresenta uma contabilidade eficiente de quantas SAGE tags de um determinado gene foram vistas para cada milho de etiquetas, permitindo uma anlise numrica da expresso gnica diferencial em cada tecido humano.
5.6. Microarrays A tcnica de microarray outra das tcnicas de anlise de transcriptomas e consiste em na hibridao de cidos nuclicos, servindo para medir a expresso absoluta ou diferencial de genes submetidos a condies diferentes. Primeiramente deve-se montar a lmina que vai conter os genes que se deseja estudar. Nessa lmina so ligados fragmentos de cDNA ou so construdas pequenas seqncias de oligonucleotdeos que ficam ligadas lmina. Posteriormente, duas clulas so tratadas em diferentes condies onde o caso mais comum baseia-se no estudo de clulas normais contra clulas tumorais. Assim, os RNAs de cada uma dessas clulas so marcados com uma determinada fluorescncia e colocados para hibridar contra os cDNAs ou oligonucleotdeos presentes no chip (ou lmina) de DNA. Atravs da complementaridade de bases, as molculas de um ou outro tecido vo se ligando s molculas do chip e, posteriormente, utiliza-se um laser para realizar a leitura das
41
fluorescncias das molculas que hibridaram no chip. Assim, conseguimos observar, para cada um dos genes do array, quanto eles se ligaram em seqncias da clula do primeiro tratamento, digamos normal, ou do segundo tratamento, digamos tumoral. A vantagem da tcnica que ela permite a anlise de milhares de genes ao mesmo tempo, sendo que o chip montado por um rob capaz de ligar os cDNAs em posies bem prximas. Entretanto, essa uma tcnica que apresenta uma grande quantidade de rudo e anlises computacionais e estatsticas complexas devem ser realizadas para se gerar um resultado satisfatrio. 5.7. Referncias Bibliogrficas 1. Davies, K. (2001). Decifrando o genoma. Companhia das letras. 2. PHRAP -- http://www.phrap.org 3. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 4. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and FolguerasFlatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002. 5.8. Brainstorm 1. Defina o que uma seqncia de EST. 2. Por que o trabalho de Venter, em 1991, causou tanto impacto na comunidade cientfca? 3. Quais so os motivos pelos quais se realiza o sequenciamento de ESTs? 4. O que so singlets, contigs e uniques? 5. Proponha um experimento no qual a resposta seja produzida em um projeto genoma e outro experimento cuja resposta s possa ser gerada atravs de uma anlise de transcriptomas. 6. Em que consiste a tcnica de SAGE, qual as suas vantagens e desvantagens? 7. Como realizado um experimento de microarray? Alm da comparao entre clulas normais e tumorais, qual outra comparao voc poderia propor para ser estudada em um experimento como esse?
42
CAPTULO 6
Bancos de dados em Biologia Molecular
Neste captulo vamos tratar das bases de dados em biologia molecular. As bases de dados em biologia molecular so importantes principalmente para proporcionar comunidade cientfica uma forma de tornar os dados (produzidos em todo o mundo) acessveis de forma fcil, rpida e inteligente (http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).
6.1. Histrico As bases de dados em biologia molecular so importantes principalmente para proporcionar comunidade cientfica uma forma de tornar os dados (produzidos em todo o mundo) acessveis de forma fcil, rpida e inteligente (http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). A primeira base de dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e colaboradores construram um catlogo contendo todas as seqncias de protenas conhecidas at a data. Essas seqncias foram publicadas num livro chamado Atlas of Protein Sequences and Structure, de 1965. interessante notar que o contedo dessa base de dados no deveria conter mais de 1 megabyte de informao, se transferida para computadores modernos (Baxevanis & Ouellette 2001). Com o advento do seqenciamento do DNA e, principalmente, a partir da dcada de 1990, do seqenciamento em larga escala, foi necessria a construo de bancos de dados mais robustos para abrigar a exploso no nmero de seqncias obtidas pelos pesquisadores (como vimos na primeira aula). O NCBI, por exemplo, foi criado pelo NIH (National Institutes of Health, os Institutos Nacionais de Sade dos Estados Unidos) em 1988 para abrigar esse tipo de informao (Wheller et al., 2002). Dessa forma, foi criada uma colaborao internacional para montar um banco de dados de seqncias de nucleotdeos, a INSDC (International Nucleotide Sequence Database Colaboration). Essa instituio contm o NCBI, o EMBL (European Molecular Biology Laboratory ou Laboratrio Europeu de Biologia Molecular) e o DDBJ (DNA Data Bank of Japan ou Banco de dados de DNA do Japo) (Tateno et al., 2002). Cada um desses centros possibilita a submisso individual de seqncias de DNA e trocam informaes entre si diariamente, sendo que todos os trs possuem informaes atualizadas de todas as seqncias disponveis para os pesquisadores (Stoesser et al., 2002). Apesar disso, cada centro apresenta os dados de forma particular, apesar de bastante semelhante. Ultimamente tm surgido uma grande quantidade de novos bancos de dados em biologia molecular. E so tantos que uma das principais revistas da rea, a inglesa Nucleic Acids Research (http://nar.oupjournals.org/), tem reservado dois nmeros especiais por ano (os primeiros volumes dos meses de janeiro e julho) apresentando apenas artigos sobre novos bancos de dados ou de atualizaes de bancos j consagrados pela comunidade. Sempre vale a pena dar uma olhada nessa revista para descobrirmos se algum novo banco publicado pode ajudar em nossa pesquisa. E, cada vez mais, torna-se impossvel fazer pesquisa em biologia sem estar por dentro dessas novas atualizaes.
43
6.2. Bancos primrios e secundrios Existem basicamente dois tipos de bancos de dados disponveis para utilizao e pesquisa de genes e protenas (Baxevanis & Ouellette 2001). Os bancos de dados primrios apresentam resultados de dados experimentais que so publicados com alguma interpretao, mas no h uma anlise cuidadosa desses dados com relao aos outros publicados anteriormente. Esse o caso, por exemplo, do GenBank, EMBL e PDB (Protein Data Bank). J os secundrios so aqueles onde h uma compilao e interpretao dos dados de entrada por um ou mais grupos de cientistas, de forma que podem ser obtidos dados mais representativos e interessantes. Esses so os bancos de dados curados, como o COG, SWISS-PROT e o TrEMBL.
6.3. GenBank e GenPept O GenBank e o GenPept (a variante do GenBank para seqncias de protenas) so os principais bancos de dados primrios contendo seqncias de biomolculas existentes no mundo e muito importante que entendamos o funcionamento de seus principais nmeros identificadores de seqncias: o GI e o AN. O primeiro identificador de seqncia criado no NCBI foi o LOCUS, que era o nico identificador de um registro no GenBank. O nome do loco era e ainda definido como uma seqncia de 10 ou menos letras em caixa alta que apresentam um mnemnico para a funo e o organismo de origem da seqncia. Assim o nome HUMHBB era utilizado para representar a regio da -globina humana (Baxevanis & Ouellette 2001). Entretanto, com a descoberta de cada vez mais locos e alelos diferentes, e com o aumento exponencial do nmero de seqncias no GenBank, ficou impossvel a inveno e a atualizao dos nomes de forma controlada. Assim os nomes de LOCUS, apesar de ainda aparecerem nos arquivos de formato GenBank, no tm mais nenhuma utilidade prtica. Devido a essas dificuldades de utilizao da informao armazenada em LOCUS, o conselho internacional de colaboradores para seqncias de nucleotdeos (NCBI, EMBL e DDBJ) introduziu o conceito de accession number (AN) ou nmero de acesso. Esse nmero no carrega, intencionalmente, nenhuma informao biolgica, de forma a permanecer estvel. Originalmente consistia de uma letra seguida por cinco nmeros, sendo que cada letra corresponderia ao centro (NCBI, EMBL ou DDBJ) no qual a seqncia fora submetida (Baxevanis & Ouellette 2001). Entretanto, logo esse nmero tambm comeou a apresentar problemas, j que as seqncias eram atualizadas contendo o mesmo AN. No arquivo GenBank h um campo chamado accession, onde h a informao sobre o histrico de uma determinada seqncia; se ela se juntou a outra, se foi atualizada, etc. Apesar desses problemas, o AN o ndice mais controlado e confivel dos registros do NCBI/EMBL/DDBJ. Para melhorar a identificao de seqncias antigas, os membros do INSDC resolveram, em 1999, acrescentar, ao AN, o nmero de sua verso (Benson et al., 2002). Dessa forma podese ver o nmero de acesso, um ponto, e o nmero de atualizaes feitas em uma determinada seqncia. Por exemplo, o nmero de acesso A21645.3 a terceira atualizao da seqncia A21645 e as verses mais velhas permanecem armazenas e acessveis atravs dos nmeros de submisso A21645.1 e A21645.2. Um cdigo similar de AN.verso dado tambm para seqncias de protenas. E para criar um ndice ainda mais robusto para suas entradas, o NCBI, em 1992, criou um novo identificador, o GenInfo Identifier (GI), um nmero inteiro simples. Esse um identificador nico para cada seqncia, independente de atualizaes ou de qualquer outra coisa que possa acontecer com uma seqncia. Toda
44
entrada no NCBI possui um GI nico da seqncia que no alterado de forma alguma, permanecendo na base de dados para o acesso (Benson et al., 2002). Se uma seqncia difere-se da outra por apenas um par de bases, as duas possuiro diferentes GIs, apesar de possurem, por exemplo, o mesmo AN (com diferentes nmeros de verso). Todos os processos internos do NCBI utilizam o nmero de GI para sua a execuo.
6.4. RefSeq O banco de dados de seqncias de referncia O RefSeq um dos bancos de dados secundrios mais utilizados por bilogos de todo o mundo. Seu objetivo produzir um conjunto no redundante de seqncias de DNA genmico, transcritos (cDNA) e de protenas para diversos organismos. A vantagem de se utilizar o RefSeq que, ao contrrio dos bancos primrios de seqncias, ele no redundante. E isso significa que, para cada gene conhecido de um determinado organismo, o banco possui uma nica entrada ao contrrio da infinidade de entradas para um mesmo gene dos bancos primrios, como o prprio GenBank e GenPept. Alm disso, ele apresenta os dados dos genes e protenas associados a diversas informaes teis, como sua funo, anlises de mutao, polimorfismos conhecidos, etc. Ele produzido pelo NCBI atravs de curadoria manual, ou seja, cada seqncia analisada por pesquisadores treinados, uma a uma, e as informaes relevantes so adicionadas entrada RefSeq do banco de dados. O RefSeq apresenta ainda referncias cruzadas com outros bancos de dados, permitindo que outras informaes adicionais sejam relacionados com uma determinada seqncia de biomolcula. Uma das caractersticas mais interessantes do RefSeq ser capaz ainda de reunir vrios dados divergentes em uma plataforma consistente e apresentando um conjunto de padres e convenes comuns. A primeira verso do RefSeq foi montada em Junho de 2003 e apresentava mais de 785.000 seqncias de protenas, 210.000 seqncias de RNA e 64.000 seqncias genmicas de mais de 2005 organismos diferentes. As principais caractersticas do RefSeq so as seguintes: No redundncia; Apresenta links diretos entre seqncias de nucleotdeos e protenas; Realiza atualizaes dirias com relao ao conhecimento biolgico da literatura sobre as seqncias em questo; Apresenta nmeros de acesso precisos e bem definidos; Possui curadoria especial pelo prprio pessoal do NCBI e colaboradores. Assim como as entradas para o GenBank, os registros do RefSeq apresentam ainda um nmero de acesso, um nmero de verso e um GI associado. Alm disso, os nmeros de acesso apresentam prefixos definidos para facilitar sua identificao, veja abaixo: Prefixo do nmero de Molcula acesso NC Molcula completa de genoma NG Regiao genmica NM MRNA NP Protena NR RNA NT* Contig Genmico NW* Contig Genmico (WGS**) XM* MRNA XP* Protena XR* RNA
45
NZ Genoma (WGS) ZP Protena gerada por entrada NZ * Computed from genome annotation pipeline ** Whole Genome Shotgun Tabela 6.1. Nmeros de acesso do RefSeq e molculas associadas (Pruitt et al., 2003).
6.5. SWISSPROT O maior banco de dados secundrio de seqncias de protenas O Swiss-Prot tem sido desenvolvido desde 1986 pelo departamento de bioqumica mdica da universidade de Gnova (agora conhecido como Swiss Intitute of Bioinformatics) e pela Biblioteca de dados do EMBL. O Swiss-Prot um banco de dados secundrio que consiste apenas de seqncias de protenas e apresenta uma padronizao de nomenclatura segundo um formato prprio e conciso. Para cada seqncia no banco de dados existem os dados da molcula protica em questo e a anotao biolgica da mesma. A anotao biolgica est relacionada ao processo de agregar informao a uma molcula biolgica e uma aula especfica sobre isso ser dada posteriormente. A anotao da protena no Swiss-Prot bastante completa e apresenta os seguintes itens: funo da protena, modificaes ps-traducionais (como adio de carboidrados, fosforilao, acetilao, etc), domnios conservados (como regies de ligao a clcio, stios de ligao a ATP, dedos de zinco, etc.), estrutura secundria da protena, estrutura quaternria (homodmero, heterodmero, etc.), similaridades com outras protenas, associaes com doenas ou deficincias, seqncias parecidas, variantes de splicing, etc. A idia dos curadores adicionar o maior nmero possvel de informaes relativas quela protena no Swiss-Prot e, para isso, os curadores se utilizam principalmente de artigos sobre as protenas e revises sobre o grupo de protenas em questo. Alm disso, algumas vezes so recrutadas pessoas com maior experincia em determinada protena para fornecer informaes mais precisas sobre as mesmas e enviar comentrios e atualizaes com relao a grupos mais especficos de protenas. E assim como o RefSeq, o Swiss-Prot tambm tem a inteno de produzir a menor redundncia possvel com relao s entradas de protenas presentes no banco, tentando, sempre que possvel, incorporar todo o dado de uma certa protena em uma nica entrada para cada organismo. Alm disso, o Swiss-Prot tambm apresenta referncias cruzadas com cerca de outras sessenta bases de dados de biomolculas, facilitando a apreenso de informao sobre a seqncia de protena em questo. Falando de uma forma menos tcnica, a grande vantagem de se utilizar o Swiss-Prot reside no fato do banco apresentar uma nomenclatura bem organizada para definir as seqncias de protenas. Enquanto outros bancos apresentam nomenclaturas um tanto quanto divergentes, mesmo quando tratando de uma mesma molcula em diferentes organismos, o Swiss-Prot apresenta uma nomenclatura fixa para cada molcula de uma determinada protena e mantm essa nomenclatura mesmo em diferentes espcies, o que facilita e permite uma maior confiana na identificao e anotao por similaridade desse tipo de molcula, como veremos na aula 7. Alm disso, ele o banco que normalmente apresenta um maior nmero de informaes sobre uma molcula de protena, incluindo modificaes ps-traducionais, domnios e outras informaes do interesse de um pesquisador que queira trabalhar com aquela molcula.
46
6.6. Gene Ontology Sistema de classificao de genes de acordo com suas caractersticas O Gene Ontology em si, no bem um banco de dados e, por isso, talvez devesse estar em um captulo parte. Entretanto, so disponibilizados bancos de dados de ontologias organizadas para determinados organismos e parece interessante abordar esse tpico no presente momento. O Gene Ontology (popularmente conhecido como GO) um esforo colaborativo em reunir descries consistentes de produtos gnicos em diferentes bancos de dados. Os participantes do projeto GO desenvolveram trs estruturas de vocabulrio controlado, chamadas de ontologias, que descrevem os produtos gnicos em termos de sua associao com processos biolgicos, componentes celulares e funo molecular de maneira no relacionada com qualquer organismo em especial. Basicamente essas trs ontologias esto relacionadas s principais perguntas que os pesquisadores tm sobre um determinado gene: (1) em quais processos biolgicos o gene est envolvido; (2) qual a sua localizao dentro da clula e; (3) como, molecularmente, o gene realiza sua funo. Um determinado gene, por exemplo, pode realizar a transduo de sinais em uma clula (processo biolgico), estar preso membrana celular (localizao celular) e ter uma funo de fosforilar uma outra protena (funo molecular), sendo classificado no GO de acordo com essas trs caractersticas. Alm disso, a utilizao de termos precisos de vocabulrio do GO ajuda muito na chamada genmica comparativa, pois dessa forma podemos saber se um determinado organismo, por exemplo, apresenta um maior nmero percentual de genes relacionados a um determinado processo biolgico ou no. O mesmo vale pras outras duas ontologias e podemos testar hipteses, interessantes, como: ser que um organismo que vive a altas temperaturas possui mais protenas de choque trmico?, ser que este organismo possui mais protenas chaperonas, que ajudam no enovelamento de outras?, ser que ele apresenta mais protenas responsveis pela duplicao de seu DNA? Da mesma forma, a utilizao destas ontologias permite que um pesquisador saiba quais so todas as protenas quinases de um determinado organismo, ou quais so todas as protenas envolvidas com metabolismo de DNA ou, ainda, quais so todas as protenas que ficam associadas ao retculo. Outro ponto importante na anlise das ontologias que elas, assim como a realidade biolgica, no apresentam uma ordem hierrquica bem definida. E ainda que isso dificulte um pouco a anlise, o resultado da ordem e da relao entre as ontologias fica mais fiel ao conhecimento que se tem sobre a biologia dos organismos. Ainda assim, as ontologias obedecem a uma certa hierarquia, no muito rgida, de forma que, por exemplo, a ontologia das tirosina quinases filha da ontologia das quinases e o pesquisador pode escolher observar ou obter todas as quinases de um organismo de GO anotado ou apenas as tirosina quinases, que so um subgrupo das quinases.
6.7. Referncias Bibliogrficas 1. Weller DL et al., 2002. Database resources of the National Center for Biotechnology information: 2002 update. Nucleics Acid Reserch 30(1): 13-16. 2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20. 3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics Acid Reserch 30(1): 21-26.
47
4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale research in life sciences. Nucleics Acid Reserch 30(1): 27-30. 5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid Reserch 30(1): 245-248. 6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48. 7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed. 8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2002. Sites: NCBI Genbank - http://www.ncbi.nih.gov/Genbank/ EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/ DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/ NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/ The Gene Ontology http://www.geneontology.org Swissprot http://us.expasy.org/sprot/ 6.8. Brainstorm
1 - O que a INSDC e por quais entidades ela formada? 2 - Qual a diferena entre bancos de dados primrios e secundrios? Apresente dois exemplos de cada um. 3 - Entre no site do NCBI: http://www.ncbi.nlm.nih.gov. Na aba Search altere o valor para Nucleotide (isso significa que voc estar fazendo uma pesquisa por seqncias de nucleotdeos), copie o AN AF117710 no espao apropriado e clique em Go. Voc deve observar um resultado dizendo que esse AN est associado ao gene Homo sapiens hemoglobin beta chain (HBB) mRNA, complete cds, clique no link para AF117710. Dessa forma voc estar vendo todas as informaes disponveis no Genbank para este gene. Explique o que significa cada um dos seguintes campos LOCUS, DEFINITION, ACCESSION, VERSION, KEYWORDS, SOURCE, ORGANISM, REFERENCE, FEATURES, ORIGIN. Mais informaes em http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html 4 - Qual a diferena entre o identificador conhecido como GI e o AN? Quais bancos de dados os utilizam? Por que no existe apenas um nmero identificador de seqncia? 5 - O que o projeto RefSeq e quais suas caractersticas principais? 6 - Entre no site do BLAST: http://www.ncbi.nlm.nih.gov/BLAST. O BLAST uma ferramenta de alinhamento local de seqncias de biomolculas e entenderemos melhor sua funo e seu funcionamento na prxima aula. Por ora, apenas entre na pgina e clique em Translated query vs. protein database (blastx). Uma pgina ir abrir com vrios campos. No campo Search, escreva novamente o nmero de acesso da seqncia da hemoglobina humana, AF117710 e clique no boto BLAST!. Na prxima pgina que ir se abrir clique em Format! e espere pelo resultado. O resultado mostrar as protenas do GenPept mais parecidos com a hemoglobina humana, guarde este resultado. Entre novamente na pgina do BLAST - Translated query vs. protein database (blastx). Nesta pgina copie novamente o nmero de
48
aceso da hemoglobina AF117710 na aba Search s que, desta vez, clique no nome nr, na opo Choose database. O nr representa o GenPept e o banco de dados contra o qual o BLAST realiza a busca. Selecione, ao invs de nr, a opo swissprot e ento clique no boto BLAST!. Espere a prxima pgina aparecer e clique em Format! Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos contra o banco nr. Responda: O que voc pode observar de diferente? Repare como a nomenclatura utilizada pelo Swissprot importante e facilita a identificao da protena. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra diferentes bancos de dados e observe os resultados.) 7 - Em que consiste o Gene Ontology? Quais as principais ontologias existentes nas quais um gene pode ser descrito? Entre no site do http://www.geneontology.org e cole na caixa de texto o seguinte termo de GO:0006259. A qual ontologia esse GO pertence? Qual o nome desta ontologia? Quais so as ontologias imediatamente inferiores a esta?
49
CAPTULO 7
Anotao de Genomas
7.1. Introduo As seqncias genmicas so fontes ricas de informaes sobre a biologia dos organismos, mas devem ser traduzidas atravs de anlises computacionais e de interpretao biolgica para que possamos extrair delas a maior quantidade possvel de dados teis (Lewis et al., 2000). A anotao genmica consiste num processo de vrios passos e Stein (2001) divide-a, em trs categorias bsicas: a anotao de nucleotdeos, de protenas e de processos (Figura 7.1). A anotao de nucleotdeos feita quando existem informaes sobre o genoma completo (ou segmentos de DNA) de algum organismo. Assim, procura-se encontrar a localizao fsica (posio cromossmica) de cada parte da seqncia e descobrir onde esto os genes (Rouz 1999), RNAs, elementos repetitivos, etc. Na anotao de protenas, que feita quando existem informaes sobre os genes (obtidos por seqenciamento genmico ou de cDNA) de algum organismo, procura-se identificar os genes j descobertos e descobrir sua funo. Assim possvel saber quais so aqueles que determinado organismo possui e quais ele no possui. A anotao de processos procura identificar as vias e processos nos quais diferentes genes interagem, montando uma anotao funcional eficiente.
Figura 7.1. Anotao de genomas completos. Esquema representando as fases e as perguntas que se deseja responder em cada uma das fases da anotao de genomas. Retirado de Prosdocimi et al., 2003.
7.2. Anotao de Nucleotdeos A anotao de nucleotdeos comea com a montagem do genoma, a identificao de onde est cada parte do DNA e qual a relao das partes entre si. Procura-se quais genes esto no mesmo segmento de DNA, no mesmo cromossomo. E depois que o genoma est montado, realiza-se buscas para encontrar as partes que correspondem aos genes expressos, quais partes correspondem a genes de tRNA, quais correspondem aos clusters de genes de rRNA e assim por diante. Assim, identifica-se a posio de cada um dos tRNAs com relao ao aminocido que ele carrega, identifica-se a posio dos rRNAs e a posio dos genes.
50
7.3.
Anotao de Protenas
Nessa etapa da anotao genmica procura-se montar um catlogo das protenas e genes presentes nos organismos, nome-los e associ-los a provveis funes atravs, principalmente, de buscas por similaridades (Aubourg & Rouz 2001). Vrias tcnicas recentes tm sido desenvolvidas para identificar automaticamente as protenas pertencentes a diferentes grupos isofuncionais (chamados erroneamente de grupos de ortologia Jensen 2001, veja na prxima aula), entretanto muitas dessas tcnicas podem gerar classificaes ambguas. Na prtica, o que normalmente feito a classificao das protenas preditas com base em domnios funcionais, configuraes espaciais e presena de padres conservados, alm de pesquisa ampla de similaridade contra protenas bem caracterizadas. Uma forma comum de se realizar a anotao de protenas procurar similaridades das seqncias com protenas presentes em diferentes bancos de dados, utilizando ferramentas de alinhamento local como o BLASTp ou PSI-BLAST (Altschul et al., 1997). As colees mais valiosas de seqncias de protenas so os bancos de dados SWISS-PROT e TrEMBL. O primeiro apresenta uma coleo de seqncias de protenas confirmadas e extensivamente anotadas. Ele contm ainda referncias para outros bancos de dados de seqncia e estrutura, referncias bibliogrficas, identificao da famlia protica e descries sobre a provvel funo e papel biolgico da protena (Bairoch & Apweiler 2000). Entretanto a velocidade do seqenciamento genmico maior que a dos curadores e, por isso, foi criado o banco de dados TrEMBL, que contm uma traduo automtica das seqncias codificadoras (cds) submetidas aos bancos de dados de nucleotdeos (Lang 1997, Apweiler 2000). Uma anlise complementar seria a procura de domnios funcionais, sendo que as bases de dados mais utilizadas nesse processo so: PFAM, PRINTS, PROSITE, ProDom, SMART e BLOCKS. Esses vrios bancos de dados de padres so altamente sobreponveis, mas cada um possui seu prprio sistema de nomenclaturas e mtodo de procura, o que torna difcil a interpretao dos resultados (Stein 2001). Por isso foi desenvolvido, recentemente, um banco integrado de assinaturas de protenas, conhecido como InterPro, que procura integrar as informaes dos bancos anteriormente citados. Cada entrada do InterPro contm uma breve descrio da famlia ou domnio, uma lista de protenas do SWISS-PROT ou TrEMBL que o contm, referncias bibliogrficas e links para cada um dos bancos membros (Apweiler et al., 2001). O banco InterPro tem sido utilizado para a anotao de diversos genomas, como o de leveduras, vermes, moscas, mostardas e homens. Desses, cerca de 40% a 50% das protenas preditas possuem pelo menos uma entrada no InterPro, donde se conclui que a outra metade das protenas eucariticas pertencem a novas famlias proticas e que muito ainda precisa ser aprendido (Apweiler et al., 2001).
7.4. Anotao de Processos A parte mais interessante e desafiadora do processo de anotao gnica relacionar, finalmente, a genmica com os processos biolgicos. Para isso, como j vimos, foi criado um consrcio chamado Gene Ontology (GO), que busca criar um vocabulrio padro para descrever a funo dos genes eucariticos. S para recordar, o GO consiste em trs divises: funo molecular (atividade especfica do gene em questo, por exemplo: atividade enzimtica), processos biolgicos (processo no qual o gene est inserido, como a meiose) e componentes celulares (descreve a estrutura celular na qual o gene est localizado, como organelas ou ribossomos) (The Gene Ontology Consortium 2000).
51
Para a anotao de processos necessrio mais do que trabalho computacional. Tcnicas biolgicas em larga escala, como mutagnese mediada por transposons, anlise de expresso em microarrays, RNA interference, identificao de protenas por espectroscopia de massa, ensaios baseados em green-fluorescent-protein para determinar a localizao subcelular e padres temporais de expresso de protenas e estudos de duplo-hbrido em leveduras tm sido de fundamental importncia para identificar o papel de genes e protenas nos processos biolgicos (Stein 2001). Cada novo experimento adiciona mais informao e permite um melhor entendimento do genoma. Portanto, a anotao de processos realizada comparando as informaes genmicas com os dados atuais da literatura, de forma a tentar compreender ao mximo a biologia do organismo que est sendo estudado.
7.5.
A realizao da Anotao Genmica (Sociologia da Anotao)
Stein (2001) prope alguns modelos bastante pertinentes para explicar como realizada, passo a passo, a anotao genmica. Segundo ele, esses processos de identificao gnica normalmente seguem algum dos seguintes modelos organizacionais: a fbrica, o museu e a festa. Cada modelo adequado para alguma das fases do trabalho de anotao (Stein 2001). Durante a primeira fase, quando o principal trabalho encontrar genes e mapear variaes e marcadores, o modelo da fbrica o mais adequado. Nesse modelo uma rede de computadores trabalha seguindo uma srie de programas de anotao. A seqncia de entrada jogada numa srie de programas para predio de genes, procura de similaridades entre seqncias de nucleotdeos e protenas e procura de domnios funcionais. Isso permite a gerao de grandes quantidades de dados sobre o genoma. Ento se inicia a fase de museu, quando a nfase passa da localizao dos dados para a sua interpretao. Nesse modelo um conjunto de curadores deve classificar e catalogar o genoma de forma sistemtica, encontrando e corrigindo erros gerados pelos programas na primeira etapa. A maior parte dessa etapa feita mo e deve basear-se tambm na literatura obtida sobre o organismo em questo para uma melhor integrao com os dados genmicos.
Figura 7.2. Um exemplo da sociologia da anotao genmica: etapas de fbrica, museu e festa. Aps o tdio da curadoria hora da festa. Nesse modelo, vrios bilogos e bioinformatas so colocados juntos em um mesmo ambiente para discutir, anotar e realizar o fechamento do genoma. Os bilogos procuram associar os dados de genoma
52
biologia do organismo, montando vrias hipteses de trabalho e os bioinformatas e cientistas da computao montam as ferramentas e do o suporte tcnico para ajudar a produzir os resultados desejados. Esse modelo tem sido utilizado com sucesso para a anotao de diversos genomas, dentre eles o da Drosophila (Adams et al., 2000) e do camundongo (The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM Consortium 2001). interessante notar que, enquanto o seqenciamento genmico uma tarefa bastante especializada, a anotao genmica algo bastante multidisciplinar, no qual toda a comunidade cientfica (biolgica) pode e deve contribuir.
7.6. Referncias Bibliogrficas 1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2: 493-505 2. Rouz P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools do we have for it? Curr Opin Struct Biol 2: 90-95. 3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes. Curr Opin Struct Biol 10: 349354. 4. PHRAP -- http://www.phrap.org 5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html 6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Jnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and FolguerasFlatschart AV. Bioinformtica: manual do usurio. Biotec. Ci. Des. 29: 18-31, 2002. 7. Aubourg, S. and Rouz P. (2001). Genome annotation. Plant Physiol Biochem 39: 181-193. 8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402. 9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48. 10. Jensen, R. A. (2001). Orthologs and paralogs we need to get it right. Genome Biol 2: 1002.1-1002.3. 11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for largescale characterisation of protein sequences. Brief Bioinform 2: 9-18. 12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.; Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; an integrated documentation resource for protein families; domains and functional sites. Nucleics Acid Res 29: 37-40. 13. Lang, F. (1997). TREMBL. Trends Genet 13: 417. 14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification of biology. Nat Genet. 25: 25-29. 15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM Consortium (2001). Functional annotation of a full-length mouse cDNA collection. Nature 409: 685-690. 16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.; Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie,
53
W. R. and Venter, J. C. (1991). Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252: 1651-6.
7.7. Brainstorm 1. Em que consiste a anotao de genomas? 2. Quais so as principais etapas durante a anotao dos genomas e qual pergunta deseja-se responder em cada uma delas? 3. Quais so os objetivos da anotao de nucleotdeos? 4. Quais so os objetivos da anotao de protenas? 5. Quais so os objetivos da anotao de processos? 6. Como realizada a anotao de genomas? Descreva os modelos organizacionais e qual a atividade realizada em cada uma destas etapas.
54
CAPTULO 8
Bioinformtica Evolutiva e Genomas Completos
Iniciando nossa Interao
O conceito de homologia algo que normalmente utilizado de forma incorreta por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que h diferentes graus de homologia entre genes ou que o gene A mais homlogo ao gene B do que um terceiro gene C. Este conceito est errado. A homologia est relacionada ancestralidade de um carter, gene ou protena, e algo que existe ou no existe, no h graus intermedirios. Esse ser o tema deste captulo.
8.1. Homologia, Ortologia e Paralogia O conceito de homologia algo que normalmente utilizado de forma incorreta por diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que h diferentes graus de homologia entre genes ou que o gene A mais homlogo ao gene B do que um terceiro gene C. Este conceito est errado. A homologia est relacionada ancestralidade de um carter, gene ou protena, e algo que existe ou no existe, no h graus intermedirios. Genes ou protenas homlogas so aquelas que apresentam um ancestral comum recente, assim como caracteres homlogos so derivados de uma mesma estrutura ancestral. As protenas podem ter mais ou menos similaridade entre si. Quando fazemos, por exemplo, um alinhamento de seqncias de duas protenas de uma certa espcie contra uma terceira de outra espcie, poderemos descobrir qual das duas mais similar terceira. Portanto, a homologia est relacionada evoluo e no apresenta nveis intermedirios: ou ou no . E existem duas classes distintas de genes/protenas homlogos, os ortlogos e os parlogos. E de suma importncia para o correto estudo da evoluo, a identificao de protenas ortlogas e parlogas. A evoluo deve ser estudada apenas em protenas ortlogas, ou seja, aquelas que descendem de uma mesma protena ancestral (e no foram duplicadas dentro de linhagens -- parlogas --, j que as estas ltimas normalmente acumulam mutaes extras devido ao fato de no haver presso seletiva para manuteno de sua funo) (Jensen, 2001). J as protenas ortlogas, que normalmente apresentam o mesmo papel funcional na clula, so importantes para a execuo deste papel e, portanto, no devem acumular mutaes que alterem sua capacidade funcional. O estudo de evoluo em nvel molecular baseia-se na comparao entre protenas ortlogas, derivadas de uma mesma protena no ancestral comum entre as espcies. Ultimamente os termos ortologia e paralogia tm sido muito utilizados na biologia genmica para expressar relaes funcionais entre genes. Genes ortlogos so considerados aqueles homlogos que apresentam a mesma funo em organismos diferentes. J os genes parlogos so considerados homlogos, presentes num mesmo organismo, que no apresentam a mesma funo. Entretanto, de acordo com Walter
55
Fitch, que primeiramente utilizou esses termos, eles no apresentam esse significado funcional e sim um significado evolutivo. Segundo sua definio, a determinao de ortologia ou paralogia est relacionada a eventos de evoluo gnica. Genes que tenham sido duplicados dentro de uma mesma linhagem (linhas horizontais) so parlogos, no importando se possuem a mesma funo ou no. J os genes que foram alterados dentro de linhagens especficas, aps especiao (aqueles nos quais, se voltarmos sua origem, chegamos a uma bifurcao ou Y invertido) so os chamados ortlogos.
Figura 8.1. Eventos de paralogia e ortologia. Adaptada de Jensen, 2001
Isso significa dizer que, na figura acima, A1 tem trs ortlogos na espcie C, mas somente C1 ortlogo de B1. J B2 tem dois ortlogos na espcie C (C2 e C3), onde C2 e C3 so parlogos. Portanto, toda relao de homologia entre genes pode ser classificada como ortologia ou paralogia e deve-se perceber que um dado gene em uma espcie pode ter mais do que um ortlogo em outra. Alm disso, podemos detectar tambm genes parlogos em espcies diferentes. bom lembrar que existe tambm uma terceira relao entre genes conhecida como xenologia, que consiste na relao entre genes quando, na sua histria evolutiva, pelo um deles surgiu por transferncia horizontal, ou seja, o gene em algum momento foi absorvido do meio para dentro do genoma do organismo (atravs de vrus, por exemplo). Portanto essa definio de nada tem a ver com a funo e sim com a histria evolutiva dos genes e assim que essa nomenclatura foi definida primeiramente. Entretanto, devemos notar que, para definirmos corretamente a relao entre os genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema que, na grande maioria das vezes, no temos informaes suficientes para montar essa rota de forma correta. interessante notar que, para os pesquisadores da cincia genmica, importante saber, principalmente, se dois genes homlogos possuem uma mesma caracterstica funcional. Esse conhecimento permite entender melhor tanto as origens estruturais das funes biolgicas como as bases moleculares para a divergncia dessas funes, permitindo aos pesquisadores comparar relaes sobre a seqncia, estrutura e funo de grupos de homlogos. Assim, considerando que os termos ortologia e paralogia mostram-se inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na
56
pesquisa genmica. Assim, genes isofuncionais seriam aqueles homlogos que apresentam a mesma funo; heterofuncionais seriam aqueles que apresentam funes diferentes; isoespecficos seriam homlogos encontrados na mesma espcie e heteroespecficos seriam homlogos presentes em espcies diferentes. Dessa forma, genes homlogos com a mesma funo em espcies diferentes seriam heteroespecficos e isofuncionais, homlogos com funes diferentes no mesmo organismo seriam isoespecficos e heterofuncionais, homlogos com a mesma funo num mesmo organismo seriam isoespecficos e isofuncionais e homlogos com funes diferentes em diferentes organismos seriam heteroespecficos e heterofuncionais.
8.2. COG Portanto, como vimos acima, algo que bastante penoso e questionvel em estudos evolutivos a definio de critrios que possam identificar determinados genes como ortlogos para que sejam realizados estudos evolutivos entre eles (Sonnhammer & Koonin 2002). No existem metodologias consensuais para identificar ortlogos e cada pesquisador considera-os da forma como acredita ser melhor. Entretanto, o NCBI apresenta um servio conhecido como COG -- Clusters of Ortologous Groups (http://www.ncbi.nlm.nih.gov/COG/) -- onde foi realizado um estudo para a definio dos grupos de protenas ortlogas presentes em organismos de genomas completos (Tatusov et al., 1997). Assim, o COG disponibiliza grupos de protenas ortlogas classificadas de acordo com sua funo biolgica em dois servios, um para organismos procariotos (Tatusov et al., 2001) e outro para eucariotos (Tatusov et al., 2003). A forma como o COG define protenas como ortlogas baseia-se no critrio conhecido como BeTs. Os BeTs, ou best hits bidirecionais so resultantes de alinhamentos locais entre protenas de um determinado organismo e o genoma de outro. Para que uma protena 1, em um organismo 1, seja BeT de uma protena 2, no organismo 2, o melhor resultado (best hit) de uma busca BLAST (Altschul et al., 1997) entre a protena 1 contra o genoma do organismo 2 deve encontrar a protena 2 como best hit da busca, assim como o contrrio. Ou seja, ao executarmos o BLAST da protena 2, contra o genoma do organismo 1, o best hit deve ser a protena 1. Assim, define-se grupos de protena BeT (Tatusov et al., 1997). Assim, para a definio de um grupo de protenas ortlogas em um COG necessrio haver BeT entre pelo menos trs diferentes organismos, sendo que as trs (ou mais) protenas devem ser BeT das outras protenas encontradas nos outros organismos. Assim o KOG, que representa o servio do COG para organismos eucariticos, apresenta 4852 grupos de protenas ortlogas de diversos organismos. Assim, para cada gene conhecido dos organismos existe um nmero de KOG caracterstico e, se buscarmos em outro organismos os genes de mesmo identificador KOG, pegaremos os genes que provavelmente realizam a mesma funo neste organismo. O COG, portanto, facilita o estudo da evoluo gnica considerando que ele mesmo j separa para o pesquisador os genes que provavelmente so ortlogos nos diferentes organismos. O servio COG de procariotos apresenta 66 genomas completos que so disponibilizados no site http://www.ncbi.nlm.nih.gov/COG, enquanto o servio do KOG de eucariotos atualmente apresenta sete organismos em seu banco de dados.
8.3. Trabalhando com genomas completos To importante quanto aprender a trabalhar para montar um genoma, produzindo toda sua seqncia de bases, saber como podemos utilizar as
57
informaes de genomas j seqenciados e disponveis nos bancos de dados pblicos. Na tabela 8.1 abaixo podemos ver quantos genomas de diferentes grupos de organismos j foram seqenciados at o presente momento (01/2005). Organism Vrus Arqueobactrias Bactrias Outros Eucariotos Complete Genomes published 2024 21 196 18
Tabela 8.1. Nmero de seqncias genmicas j publicadas para diferentes classes de organismos. Obtido em http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html, a 27/01/2005.
As seqncias genmicas de diversos organismos podem ser obtidas no site do NCBI http://www.ncbi.nlm.nih.gov, a partir do servio Entrez Genomes. Os genomas presentes ali geralmente so fornecidos na forma de diversos arquivos de entrada, cada um contendo uma informao especfica, que pode ser vista na tabela abaixo: Arquivo Informao contida no arquivo asn Arquivo no formato GenBank contendo informaes de genoma formatadas em XML faa Seqncias de aminocidos de todas as protenas inferidas no formato FASTA ffn Seqncias de Nucleotdeos de todos os genes inferidos no formato FASTA, apresentando, no cabealho informao sobre sua posio no genoma fna Contm a informao sobre a seqncia de nucleotdeos do genoma completo do organismo gbk Contm todo o genoma do organismo anotado segundo padro GenBank ptt Apresenta informaes sobre localizao, fita, tamanho, identificador, nome e cdigo de cada um dos genes, assim como sua categoria funcional segundo o COG Tabela 8.2. Arquivos disponibilizados pelo NCBI para seqncias de genomas completos de procariotos (ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria).
Assim, temos disponvel para nosso uso tanto a seqncia do do organismo quanto as seqncias de cada um dos seus genes essas informaes torna-se possvel que realizemos vrios tipos de prprio interesse e utilizemos as seqncias dos genomas da interessar.
genoma completo e protenas. Com estudos de nosso forma como nos
8.4. Referncias Bibliogrficas 1. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402.
58
2. Jensen, RA. Orthologs and paralogs we need to get it right. Genome Biology 2001 2 (8): 1002.1-1002.3 3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed classification for paralog subtypes. Trends Genet. Dec;18(12):619-20. 4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV, Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41. 5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. Jan 1;29(1):22-8. 6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein families. Science. Oct 24;278(5338):631-7.
8.5. Brainstorm 1. Qual o conceito de homologia e por que no se diz que dois genes so mais homlogos entre si do que um terceiro? 2. O que so genes parlogos e ortlogos? 3. Como o COG classifica os genes em ortlogos? Discuta sobre a classificao do COG e o conceito de ortologia da resposta anterior. 4. Por que voc acredita que os genomas virais so os mais seqenciados de todos? 5. Que tipo de informao disponibilizada sobre um organismo quando um genoma est completo?
59
CAPTULO 9
Bioinformtica estrutural
Iniciando nossa Interao Como j dissemos a bioinformtica consiste principal no estudo de seqncias de biomolculas. At agora j conseguimos entender a relevncia da bioinformatica com relao a seqncias de DNA (genoma) e RNA (transcriptoma). Portanto hora de nos voltarmos para as seqncias de protenas. As protenas so muitas vezes consideradas as principais molculas de uma clulas, j que so elas que realizam as funes celulares, sendo que o DNA e RNA tm principalmente a caracterstica de armazenamento e processamento de informaes. Sabe-se bem que as protenas exercem sua funo de acordo com sua estrutura espacial, ou seja, a funo da protena est intrinsecamente ligada a sua conformao tridimensional, sua estrutura. E justamente a busca por esta conformao espacial uma das principais reas da bioinformtica, que ser discutida no presente captulo.
9.1. Sobre a estrutura das protenas A seqncia de aminocidos que forma uma determinada protena conhecida como sua estrutura primria. J a forma como os aminocidos se interconectam formando alas, hlices ou folhas consiste na estrutura secundria da protena. Entretanto, o que realmente importa para a funo de uma protena sua forma tridimensional no espao. atravs dessa conformao espacial que a protena encaixa segundo o modelo chave-fechadura nos seus substratos para catalisar uma determinada reao qumica que d origem aos produtos da ao enzimtica. No caso da estrutura de uma protena, existem dois ngulos principais de toro entre tomos dos aminocidos que so responsveis pela forma final na qual uma protena se enovela no espao, esses so os ngulos phi e psi. Eles so formados pela ligao carbono alfa dos aminocidos e seus grupos amino e cido carboxlico. Cada aminocido da protena apresenta um valor de toro de tais ngulos e, soubssemos esse valor para cada um deles, conheceramos perfeitamente a forma como a protena se enovela para realizar sua funo. Ainda hoje impossvel prever teoricamente a estrutura 3D de uma protena quando conhecemos apenas sua estrutura primria e esse um dos grandes, seno o maior, desafio da bioinformtica nos dias de hoje. Mesmo alguns cientistas clebres dizem que a bioinformtica consiste apenas em uma forma de processar a informao de genomas, transcriptomas ou proteomas e que nunca algo realmente de valor pode ser produzido apenas por anlises computacionais de seqncias de biomolculas. Entretanto, acredita-se que a forma como as protenas se enovelam no espao seja realmente uma das grandes questes da atualidade e, possivelmente, isso traria daria fama e respeito em toda comunidade cientfica caso um mtodo terico de predio de estrutura de protenas fosse desenvolvido atravs de ferramentas computacionais. E, na minha opinio, se algo pode dar um Nobel a um bioinformata, essa a grande pergunta a ser respondida e trabalhada. Bem, mas a vida real mais dura e, hoje, para descobrirmos a estrutura terciria de uma protena, que consiste exatamente na sua forma espacial, devemos
60
utilizar laboriosos testes experimentais para tal, sendo que os principais mtodos utilizados hoje em dia so a difrao de raios-X e a ressonncia nuclear magntica. Na difrao de raios-X, a primeira dificuldade consiste na produo de um cristal da protena desejada. E essa dificuldade deve-se ao fato de que a cristalizao consiste num processo um tanto quanto catico e imprevisvel, sendo que determinadas protenas podem ser cristalizadas em poucos dias enquanto outras demoram anos para que possam ser cristalizadas. Esse cristal deve ento ser submetido a uma fonte de raios-X e o padro de difrao obtido pela incidncia do raio-X no cristal da protena deve ser ento analisado computacionalmente para que seja produzida a estrutura precisa da protena em questo. Com os dados obtidos no experimento de difrao montado um mapa de densidades eletrnicas onde os aminocidos so encaixados e o quebra cabea que representa a estrutura da protena gerado. Dependendo da resoluo obtida pode-se chegar at a descobrir exatamente qual a seqncia de aminocidos da protena. Quase 100% das vezes, entretanto, a seqncia primria j conhecida de antemo. Ao contrrio da tcnica de difrao de raios-X, a ressonncia nuclear magntica ou NMR, da sigla em ingls, permite que a estrutura da protena seja conhecida sem que haja necessidade da cristalizao da mesma (as protenas so utilizadas em soluo) e, portanto, protenas que no so possveis de se cristalizar tm sua estrutura 3D resolvida por este mtodo. No fundo esse um mtodo de minimizao de energia que produz um resultado menos preciso e de menor resoluo do que os resultados de difrao. Freqentemente os resultados de NMR produzem mais de um resultado que apresente uma energia mnima e, assim, os arquivos de estruturas de protenas resolvidas por NMR so, na verdade, um conjunto contendo todas as estruturas da protena que apresentaram menor energia e vrias estruturas parecidas so observadas nestes arquivos.
9.2. Protein Data Bank: o banco de dados de estruturas de protenas O PDB (Protein Data Bank ou Banco de Dados de Protena) consiste no principal banco de dados de estrutura de protenas existente no mundo. A figura 9.1 apresenta o crescimento do nmero de estruturas depositadas desde a criao do PDB, em 1972. Algo interessante a ser notado que, se nos lembrarmos da primeira aula que tivemos, da primeira figura deste curso, a figura 1.1, perceberemos que, enquanto cerca de 16 milhes de seqncias nucleotdicas so conhecidas, ainda hoje temos conhecimento apenas de cerca de 30 mil estruturas de protenas. E isso nos mostra como a descoberta das estruturas tercirias das protenas ainda hoje consiste num mtodo trabalhoso e complicado. Analisando ainda a figura, vemos que com o passar dos anos, cada vez mais estruturas so reveladas (barras vermelhas), mas ainda assim h uma clara e notria diferena entre a informao de seqncia e de estrutura das biomolculas. O PDB tambm abriga dados estruturais de pequenos peptdeos, vrus, cidos nuclicos e carboidratos e, das cerca de 30 mil estruturas presentes no banco cerca de vinte e cinco mil foram resolvidas atravs de difrao de raios-X enquanto cerca de cinco mil foram resolvidas por experimentos de ressonncia magntica. Algumas protenas, entretanto, tiveram suas estruturas resolvidas pelas duas tcnicas.
61
Figura 9.1. Crescimento do PDB. Crescimento do nmero de estruturas de protenas contidas no PDB ao longo das trs ltimas dcadas. Obtido em http://www.rcsb.org/pdb/holdings.html. Outra informao importante sobre o PDB que ele consiste, assim como o GenBank, em um banco de dados primrio de estruturas de protenas, onde as mesmas no so classificadas ou analisadas de nenhuma forma especfica, estando publicadas da mesma forma que o pesquisador que as produziu depositou no banco.
9.3. Modelagem molecular por homologia A modelagem molecular por homologia representa a tentativa de se descobrir a estrutura de uma determinada protena tendo como base a estrutura de uma outra protena de seqncia relativamente similar. E a necessidade de se modelar uma estrutura vem do fato de que a informao biolgica sobre uma determinada protena cresce quando se conhece sua estrutura (figura 9.2). Com a informao da estrutura de uma protena possvel tentar descobrir, por exemplo, outras protenas que interajam com ela, frmacos que possam ativ-la ou inibi-la ou, simplesmente, permite que entendamos melhor seu mecanismo molecular de ao.
62
Figura 9.2. O desafio da modelagem por homologia.
A premissa bsica na qual se baseia a modelagem por homologia a de que: se duas protenas apresentam seqncia primria similar bem provvel que sua estrutura seja tambm parecida. E essa premissa tem se mostrado real, apesar de que, algumas vezes, mesmo protenas que apresentam seqncias primrias diferentes podem apresentar conformaes tridimensionais parecidas, no que novos programas de threading tm sido desenvolvidos para tentar prever essas estruturas. Voltando modelagem por homologia, entretanto, preciso definir bem quais so as situaes nas quais a modelagem molecular vale a pena ou no em ser realizada. Basicamente, ela vale ser realizada nos seguintes casos: (1) quando o problema experimentalmente difcil, por exemplo, quando as protenas so muito difceis de serem cristalizadas, como o caso de protenas glicosiladas ou de membrana; (2) quando se deseja apenas saber aproximadamente a estrutura da protena, ou seja, quando o problema no justifica o investimento e o tempo necessrios para produzir experimentalmente a estrutura da protena; ou (3) quando este o nico recurso disponvel, no caso, por exemplo de um laboratrio que no tenha os equipamentos de deduo experimental ao alcance. Os procedimentos realizados para a modelagem por homologia normalmente consistem nos seguintes passos: (1) identificao das protenas j modeladas apresentando seqncias primrias similares, normalmente realizada atravs de alinhamentos locais da protena desejada contra as seqncias das protenas do PDB; (2) seleo das protenas similares que sero utilizadas como modelo; (3) alinhamento global da seqncia desejada com as que sero utilizadas; (4) construo do modelo atravs de similaridade com os modelos das protenas escolhidas do PDB utilizando um software de modelagem; (5) avaliao do modelo utilizando diferentes algoritmos de teste. Vale notar que o processo de modelagem por homologia um processo iterativo, ou seja, que pode apresentar vrias iteraes ou repeties. No final, avalia-se o modelo obtido e, se o modelo no for satisfatrio, tenta-se escolher outras protenas homlogas, alinhamentos um pouco diferentes ou tenta-se modificar alguns parmetros do programa de modelagem at que o modelo passe bem nos testes que avaliam os ngulos de toro dos aminocidos e as propriedades fsico-qumicas da protena.
63
9.4. Alguns programas de modelagem molecular Existem vrios programas que permitem a realizao da modelagem molecular. O mais fcil de utilizar o swiss-model http://swissmodel.expasy.org/SWISSMODEL.html. Ele consiste num servidor que realiza todos os procedimentos de forma transparente para o usurio, que precisa apenas entrar com a seqncia primria da protena de interesse. O prprio swiss-model procura as protenas similares de estrutura conhecida e realiza a montagem do modelo por homologia segundo um algoritmo prprio. Apesar disso, ele permite que o usurio tambm entre com os identificadores PDB das protenas que o mesmo deseje utilizar como molde ou definir um valor de cutoff de BLAST para ser utilizado na escolha automtica das protenas pelo sistema. Apesar de simples, o swiss-model normalmente utilizado apenas para a produo de modelos aproximados ou como recurso didtico. J o algoritmo Modeller consiste num software mais robusto para a elucidao de estruturas por homologia. O Modeller trabalha atravs de satisfao de restries espaciais, apresentando um banco de dados interno que contm alinhamentos de 416 protenas de 105 diferentes famlias e, para a satisfao de tais restries, ele ainda calcula as distncias entre os tomos dos aminocidos utilizando funes estatsticas de densidade de probabilidade. Apresenta ainda um algoritmo de otimizao atravs de dinmica molecular, onde as restries espaciais so otimizadas levando em considerao termos energticos e de estereoqumica de aminocidos. O Modeller contm tambm um banco de dados contendo protenas representativas de todo o PDB.
9.5. Threading Vimos, portanto, como normalmente realizada a montagem de modelos tericos de estruturas proticas baseados em homologia de seqncia entre diferentes protenas. Entretanto, o que fazer quando o pesquisador deseja modelar teoricamente uma determinada protena mas no h outras seqncias similares o suficiente no banco de dados do PDB para realizar essa modelagem? Foi pensando nesse tema e no fato de que algumas protenas de seqncia bem divergente apresentam estruturas similares, que os algoritmos de threading foram desenvolvidos. Tais programas, como o gene threader, tentam modelar protenas que no apresentem seqncias primrias similares com estrutura conhecida. Um programa de threading funciona de acordo com a montagem dos chamados modelos descritivos, que so montados para tentar criar um padro relacionando seqncia e estrutura, mas no de uma forma to rgida quanto num alinhamento. Esses padres levam em considerao alguns fatores, como: (1) a distncia entre os resduos de aminocidos; (2) a estrutura secundria de vrios segmentos das protenas; (3) as caractersticas fsico-qumicas de cada resduo e sua ordem na cadeia. Dessa forma, esses algoritmos so, por vezes, capazes de gerar estruturas tercirias de protenas sem que existam outras protenas j modeladas com seqncia similar.
9.6. CASP Critical Assessment of Structure Prediction interessante notar que a cada dois anos realizada uma espcie de competio para tentar descobrir quais so os melhores programas de modelagem molecular existentes no mundo. Essa saudvel competio realizada como um estudo cego onde uma protena recm modelada experimentalmente tem sua estrutura
64
escondida e vrios grupos de modelagem em todo o mundo obtm sua seqncia primria e tentam model-la atravs de diversas tcnicas diferentes. Ganha o concurso o grupo que se aproximar mais da estrutura real da protena, que s liberada depois que o concurso termina. E a cada binio os pesquisadores mostram conseguir chegar mais perto da estrutura real da protena desconhecida.
9.7. Estrutura de um arquivo no formato PDB O arquivo abaixo consiste na parte inicial de um arquivo no formato PDB que representa a estrutura de uma protena, no caso de uma variante da hemoglobina humana. O arquivo PDB normalmente estruturado de acordo com as seguintes partes:
Informaes do arquivo Identificadores da primeira coluna Ttulo TITLE, COMPND, SOURCE, AUTHOR, REMARKS Estrutura primria DBREF, SEQADV, SEQRES, MODRES Heterotomos HET, HETNAM, HETSYN, FORMUL Estrutura secundria HELIX, SHEET, TURN Ligaes qumicas SSBOND, HYDBND, SLTBRG, CYSPEP Dados cristalogrficos CRIST1, ORIGXn, SCALEn, MTRIXn Coordenadas atmicas MODEL, ATOM, TER, HETATM Tabela 9.1. Informaes presentes num arquivo PDB de estrutura de protena. Exemplo de um arquivo PDB:
HEADER COMPND COMPND COMPND COMPND COMPND COMPND COMPND SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE KEYWDS EXPDTA AUTHOR REVDAT JRNL JRNL JRNL JRNL JRNL JRNL JRNL JRNL
OXYGEN TRANSPORT 14-APR-95 1HDB MOL_ID: 1; 2 MOLECULE: HEMOGLOBIN (DEOXY) BETA-V67T; 3 CHAIN: A, B, C, D; 4 SYNONYM: HBV67T; 5 ENGINEERED: YES; 6 MUTATION: CHAIN B, D, V67T; 7 OTHER_DETAILS: ALPHA-BETA-ALPHA-BETA TETRAMER MOL_ID: 1; 2 SYNTHETIC: YES; 3 ORGANISM_SCIENTIFIC: HOMO SAPIENS; 4 ORGANISM_COMMON: HUMAN; 5 TISSUE: BLOOD; 6 CELL: ERYTHROCYTE; 7 EXPRESSION_SYSTEM: ESCHERICHIA COLI; 8 EXPRESSION_SYSTEM_STRAIN: AR120; 9 EXPRESSION_SYSTEM_PLASMID: PJK05 (FRONTICELLI ET AL.,1991); 10 EXPRESSION_SYSTEM_GENE: BETA-GLOBIN CDNA FUSED TO A 11 TRUNCATED VIRAL GENE HUMAN HEMOGLOBIN, DEOXY-BETA-V67T X-RAY DIFFRACTION I.PECHIK,X.JI,C.FRONTICELLI,G.L.GILLILAND 1 03-APR-96 1HDB 0 AUTH I.PECHIK,X.JI,J.DILL,K.FIDELIS,J.MOULT, AUTH 2 W.S.BRINIGAR,M.KARAVITIS,C.FRONTICELLI, AUTH 3 G.L.GILLILAND TITL ANALYSIS OF THE CRYSTAL STRUCTURE, MOLECULAR TITL 2 MODELING AND INFRARED SPECTROSCOPY OF THE DISTAL TITL 3 BETA-HEME POCKET VALINE67(E11)-THREONINE MUTATION TITL 4 OF HEMOGLOBIN REF TO BE PUBLISHED
1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
65
JRNL REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REFN 0353 1 1 REFERENCE 1 1 AUTH C.FRONTICELLI,I.PECHIK,W.S.BRINIGAR,Z.GRYCZYNSKI, 1 AUTH 2 G.L.GILLILAND 1 TITL OXYGEN AFFINITY MODULATION BY THE N-TERMINI OF THE 1 TITL 2 BETA- CHAINS IN HUMAN AND BOVINE HEMOGLOBIN 1 REF J.BIOL.CHEM. V. 269 23965 1994 1 REFN ASTM JBCHA3 US ISSN 0021-9258 0071 2 2 RESOLUTION. 2.2 ANGSTROMS. 3 3 REFINEMENT. 3 PROGRAM GPRLSA 3 AUTHORS FUREY 3 R VALUE 0.149 3 MEAN B VALUE 21.43 ANGSTROMS**2 3 FINAL RMS COORD. SHIFT 0.024 ANGSTROMS 3 3 NUMBER OF REFLECTIONS 21669 3 RESOLUTION RANGE 6.0 - 2.2 ANGSTROMS 3 DATA CUTOFF 2. SIGMA(F) 3 3 DATA COLLECTION. 3 NUMBER OF UNIQUE REFLECTIONS 27163 3 COMPLETENESS OF DATA 84. % 3 REJECTION CRITERIA 0.0 SIGMA(I) 3 3 NUMBER OF ATOMS USED IN REFINEMENT. 3 NUMBER OF PROTEIN ATOMS 4384 3 NUMBER OF NUCLEIC ACID ATOMS 0 3 NUMBER OF HETEROGEN ATOMS 172 3 NUMBER OF SOLVENT ATOMS 444 3 3 RMS DEVIATIONS FROM IDEAL VALUES (THE VALUES OF 3 SIGMA, IN PARENTHESES, ARE THE INPUT ESTIMATED 3 STANDARD DEVIATIONS THAT DETERMINE THE RELATIVE 3 WEIGHTS OF THE CORRESPONDING RESTRAINTS). 3 DISTANCE RESTRAINTS (ANGSTROMS). 3 BOND DISTANCE 0.017(0.025) 3 ANGLE DISTANCE 0.038(0.036) 3 PLANAR 1-4 DISTANCE 0.039(0.040) 3 ANGLE RESTRAINTS (DEGREES). 3 PLANE RESTRAINT (ANGSTROMS) 0.023(0.030) 3 CHIRAL-CENTER RESTRAINT (ANGSTROMS**3) 0.181(0.200) 3 NON-BONDED CONTACT RESTRAINTS (ANGSTROMS). 3 SINGLE TORSION CONTACT 0.186(0.300) 3 MULTIPLE TORSION CONTACT 0.187(0.300) 3 POSSIBLE HYDROGEN BOND 0.174(0.300) 3 CONFORMATIONAL TORSION ANGLE RESTRAINT (DEGREES). 3 PLANAR 3.5(5.0) 3 STAGGERED 17.4(15.0) 3 ORTHONORMAL 31.7(15.0) 3 ISOTROPIC THERMAL FACTOR RESTRAINTS (ANGSTROMS**2). 3 MAIN-CHAIN BOND 0.676(1.000) 3 MAIN-CHAIN ANGLE 1.140(1.500) 3 SIDE-CHAIN BOND 1.279(1.500) 3 SIDE-CHAIN ANGLE 2.031(2.000) 3 3 MAIN-CHAIN BOND 0.676(1.000) 3 MAIN-CHAIN ANGLE 1.140(1.500) 3 SIDE-CHAIN BOND 1.279(1.500) 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
66
REMARK REMARK REMARK REMARK REMARK DBREF DBREF DBREF DBREF SEQADV SEQADV SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES HET HET HET HET HET HET 18 18 DATE OF DATA COLLECTION : 07-04-94 18 MONOCHROMATIC (Y/N) : Y 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 18 DATA REDUNDANCY : 2.75 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 12 B 146 LYS TYR HIS 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 12 D 146 LYS TYR HIS HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) SO4 1 5 SULFATE ION SO4 2 5 SULFATE ION 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158
67
FORMUL FORMUL FORMUL HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX HELIX CRYST1 ORIGX1 ORIGX2 ORIGX3 SCALE1 SCALE2 SCALE3 ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 5 HEM 4(C34 H32 N4 O4 FE1 2+) 6 SO4 2(O4 S1 2-) 7 HOH *434(H2 O1) 1 1 PRO A 4 SER A 35 1 2 2 PRO A 37 TYR A 42 5 3 3 ALA A 53 ALA A 71 1 4 4 MET A 76 ALA A 79 1 5 5 SER A 81 HIS A 89 1 6 6 PRO A 95 HIS A 112 5 7 7 PRO A 119 THR A 137 1 8 8 PRO B 5 LYS B 17 1 9 9 VAL B 20 VAL B 34 1 10 10 PRO B 36 PHE B 45 5 11 11 PRO B 51 GLY B 56 1 12 12 PRO B 58 HIS B 77 1 13 13 LEU B 81 ASP B 94 1 14 14 PRO B 100 GLU B 121 5 15 15 PRO B 124 ALA B 142 1 16 16 PRO C 4 SER C 35 1 17 17 PRO C 37 TYR C 42 5 18 18 ALA C 53 ALA C 71 1 19 19 MET C 76 ALA C 79 1 20 20 SER C 81 HIS C 89 1 21 21 PRO C 95 HIS C 112 5 22 22 PRO C 119 LEU C 136 1 23 23 PRO D 5 LYS D 17 1 24 24 VAL D 20 VAL D 34 1 25 25 PRO D 36 PHE D 45 5 26 26 PRO D 51 GLY D 56 1 27 27 PRO D 58 HIS D 77 1 28 28 LEU D 81 ASP D 94 1 29 29 PRO D 100 GLU D 121 5 30 30 PRO D 124 ALA D 142 1 63.540 83.190 54.020 90.00 99.15 1.000000 0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 0.015738 0.000000 0.002535 0.000000 0.012021 0.000000 0.000000 0.000000 0.018750 1 N VAL A 1 19.345 29.258 2 CA VAL A 1 20.198 30.251 3 C VAL A 1 21.681 29.970 4 O VAL A 1 22.004 29.466 5 CB VAL A 1 19.720 31.621 6 CG1 VAL A 1 19.955 31.726 7 CG2 VAL A 1 20.335 32.766 8 N LEU A 2 22.515 30.278 9 CA LEU A 2 23.964 30.010 10 C LEU A 2 24.657 31.119 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 1HDB 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208
90.00 P 21 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 43.165 1.00 42.493 1.00 42.744 1.00 43.860 1.00 43.026 1.00 44.529 1.00 42.236 1.00 41.750 1.00 41.896 1.00 42.673 1.00
33.80 33.75 33.53 33.92 33.70 33.94 34.02 32.79 32.05 31.36
Aqui so mostrados apenas os 10 primeiros tomos com suas coordenadas, mas o arquivo inteiro apresenta mais de 5000 tomos com suas respectivas coordenadas atmicas, que representam sua posio espacial num eixo tridimensional.
9.8. Referncias Bibliogrficas 1. PDB http://www.rcsb.org/pdb/ Mais famoso e completo banco de dados de estrutura de protenas.
68
2. Protein explorer http://molvis.sdsc.edu/protexpl/ Programa derivado do RasMol para a visualizao de estruturas de protenas. 3. SWISS-PDBviewer http://www.expasy.org/spdbv/ Programa para a visualizao e anlise da estrutura de protenas. Permite a realizao de mutaes, alteraes em pontes de hidrognio, ngulos de toro e distncias entre tomos. 4. Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html Programa on-line que utiliza threading para encontrar uma seqncia de resduos de aminocidos que melhor se adequem a uma estrutura terciria conhecida e vice-versa 5. Threader Programa de predio da estrutura terciria atravs do reconhecimento do enovelamento a partir de bibliotecas alternativas 6. CASP http://predictioncenter.llnl.gov/Center.html Critical Assesment of Structural Prediction. Competio que avalia os softwares de predio de estrutura de protenas 7. SWISS-MODEL Modelagem de protenas por homologia http://www.expasy.org/swissmod
9.9. Brainstorm 1. Por que o conhecimento sobre a estrutura das protenas importante? 2. Descreva brevemente como funcionam as duas principais tcnicas experimentais para a descoberta da estrutura tercirias das protenas. 3. O que o PDB? Por que h menos estruturas proticas produzidas do que seqncias gnicas? 4. A modelagem por homologia se baseia em qual premissa? 5. Quais so os casos onde se recomenda realizar a modelagem por homologia? 6. Quais so os passos necessrios para se realizar a modelagem por homologia? 7. Em que se baseia a modelagem por threading? Voc acha que a modelagem por threading mostra que a premissa da modelagem por homologia esteja incorreta ou incompleta? Por que?
69
CAPTULO 10
Concluses e pensamentos filosficos sobre a bioinformtica
10.1. Sobre bioinformtica, genoma e cincia Abaixo voc vai ver o rascunho do artigo que publiquei na Revista Cincia Hoje, de Outubro de 2004, em colaborao com meu orientador de doutorado, o Prof. Fabrcio Rodrigues dos Santos. O artigo pretende apresentar a bioinformtica, coisa que voc j deve estar ciente neste momento, e discutir a relevncia da pesquisa de genoma num contexto cientfico. Alm disso, o artigo apresenta alguns paradigmas interessantes da pesquisa em bioinformtica.
10.2. Introduo A bioinformtica consiste principalmente na anlise computacional de seqncias de DNA, RNA e protenas. Essa nova cincia surgiu na ltima dcada devido a uma necessidade urgente pela utilizao de ferramentas sofisticadas para a anlise de um crescente nmero de dados que veio a ser produzido em biologia molecular. O GenBank foi um dos primeiros e ainda o mais popular banco de dados para o depsito de seqncias de DNA. Criado dentro do NCBI -- o centro americano para informao biotecnolgica --, l onde pesquisadores de todo o mundo depositam as seqncias de A, C, G e Ts que obtm em seus laboratrios atravs do sequenciamento do DNA dos mais diversos organismos. No final da dcada de 90 observou-se um crescimento exponencial do nmero de seqncias de biomolculas depositadas no GenBank e a figura 1 j clssica no mbito da biologia computacional. Esse assustador crescimento comeou a ocorrer aps a comercializao dos seqenciadores de DNA a laser, em 1990. Os seqenciadores atuais so totalmente automatizados e foram especialmente desenvolvidos para o seqenciamento de molculas DNA em larga-escala. Freqentemente apresentam 96 capilares (tubos minsculos por onde passam fragmentos de DNA a serem analisados) e conseguem gerar, em mdia, seqncias de DNA de 600 letras A, C, G e T por capilar em cada anlise (o genoma humano constitudo por cerca de 3 bilhes de letras de DNA). Seqenciadores ainda mais potentes, apresentando 384 capilares, podem produzir mais de um milho de letras do DNA por dia! No Brasil, existem dezenas de seqenciadores e grande parte deles foi distribuda entre laboratrios em todo o pas quando da implantao do Projeto Genoma FAPESP para o seqenciamento da bactria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram seqenciadas as bactrias Chromobacterium violaceum e Mycoplasma synoviae.
70
Figura 10.1. Crescimento do nmero de seqncias depositadas no Genbank desde sua criao. A grande maioria dessas seqncias publicadas em bancos de dados internacionais vm de projetos genoma e transcriptoma (ou genoma funcional). Genomas para c, genomas para l, desde o seqenciamento da primeira bactria -- o Haemophilus influenzae em meados de 1995 -- hoje o NCBI j apresenta 1274 genomas de vrus seqenciados, 169 genomas de procariotos (bactrias e arqueobactrias) e 20 genomas de organismos eucariticos. Estas seqncias de biomolculas tm gerado uma grande quantidade de informao cuja complexidade crescente com o estudo das interaes entre biomolculas e das variaes observadas entre cada um dos indivduos de uma certa populao. Mas, afinal, que informaes cientificamente relevantes o genoma trouxe para os cientistas, para as pessoas e para a sociedade? Enfim, ser que projetos genoma so pesquisas meramente descritivas? Qual seria ento a relevncia da genmica e o papel da bioinformtica para consolidao desta cincia?
10.3. Genoma e o mtodo cientfico primeira vista parece-nos que os estudos de genoma no so estudos cientficos clssicos. Isso se deve ao fato de que o incio de um projeto genoma no se baseia em uma hiptese clara e bem elaborada a priori sobre a biologia de um determinado organismo. No mximo, a pergunta que se poderia fazer antes de se seqenciar um genoma seria: ser que este organismo apresenta algum gene de potencial biotecnolgico?; ou, o que h no genoma deste organismo que o faz conseguir viver nessa condio, ou gerar uma patologia? Mas, no fundo, tais perguntas dificilmente sero respondidas diretamente atravs do seqenciamento do genoma. Estudos posteriores sero certamente necessrios para responder tais perguntas de forma adequada. E mais ainda: possvel que alguma investigao nogenmica mais minuciosa sobre esse ou aquele aspecto em particular possam dar resposta mais direta a tais questes. Mas no pense que isso tira o mrito dos estudos genmicos. Acreditamos que a cincia vive hoje a era da anatomia molecular. Se voltarmos filosoficamente ao
71
sculo XIX, veremos que, naquela poca em que pouco se conhecia -- de forma sistematicamente documentada -- do mundo biolgico em geral, os grandes cientistas eram considerados os naturalistas; aqueles que exploravam o mundo em busca de informao taxonmica, encontrando e classificando novos animais e plantas antes desconhecidos. A descrio e a documentao de novas espcies era especialmente necessria naquela poca, uma vez que pouco ou nada se conhecia sobre a grande diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas, houve a poca onde os anatomistas comearam a surgir, escrevendo seus tratados e mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de diversas outras espcies. Descreviam da melhor maneira possvel poca, a localizao dos rgos e tecidos humanos que se tinha conhecimento. Igualmente, se a genmica no pode ser vista classicamente como uma cincia, a taxonomia e a anatomia tambm no o podem. E isso vem do fato de que tais empreendimentos cientficos so principalmente descritivos ao invs de investigativos. Mas, mais uma vez, isso no lhes tira o mrito, muito pelo contrrio. Quanto conhecimento cientfico j no foi construdo baseado nas informaes geradas pelos naturalistas e anatomistas? Toda uma cincia biomdica foi montada com bases nos conhecimentos descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda a biologia -- a Evoluo -- surgiu diretamente das observaes, documentaes e estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace. Bem, e a genmica? O genoma pode ser descrito como a anatomia molecular de uma espcie. E s agora, neste incio de sculo XXI, que estamos conseguindo desvendar e descrever como as espcies so constitudas em seu nvel mais bsico; o da informao molecular. A genmica a cincia descritiva dos nossos tempos. E assim como as cincias biomdicas surgiram para trazer o mtodo cientfico ao estudo da anatomia, a bioinformtica surge agora para trazer a cientificidade aos dados genmicos, para casar a genmica ao mtodo cientfico e para gerar informaes relevantes e indispensveis na incessante busca do conhecimento em que consiste o empreendimento cientfico.
10.4. Um conceito de bioinformtica Nesse momento importante definirmos bem do que se trata a bioinformtica e em que contexto utilizamos este conceito no presente ensaio. Muita confuso feita nesse ponto e muitos acreditam que a bioinformtica consista em qualquer anlise computacional de problemas biolgicos, o que no se enquadra na origem desta disciplina. A bioinformtica clssica surgiu com o seqenciamento de biomolculas e destas permanece inseparvel. possvel propor uma definio razoavelmente clara do que seja a bioinformtica dizendo que esta consista em todo o tipo de estudo ou de ferramenta que se pode realizar e/ou produzir de forma a organizar ou obter informao biolgica a partir de seqncias de biomolculas. Se o estudo usa seqncias de biomolculas (DNA, RNA ou protenas), direta ou indiretamente, tratamos como bioinformtica; do contrrio estaremos falando de computao aplicada biologia, campo extremamente importante em vrias disciplinas e presente bem antes de ser iniciado o seqenciamento de biomolculas. Uma vez definido o conceito de bioinformtica utilizado aqui, podemos perceber que muitos estudos na rea podem ser enquadrados em trs princpios paradigmticos, chamadas aqui, metaforicamente, de tijolo, peneira e lupa.
72
10.5. Princpios paradigmticos em bioinformtica Estudos de bioinformtica tijolo consistem naqueles relacionados execuo de projetos genoma e normalmente produzem ferramentas para a anlise de seqncias e interpretao de genomas. Alguns processos j so clssicos dentre as anlises de seqncias de DNA. Dentre eles podemos citar o base-calling, onde as bases do DNA so lidas no seqenciador a partir dos cromatogramas (perfis de emisso fluorescente que variam entre os nucleotdeos A, C, G e T durante a anlise). Neste processo, so gerados os chamados cromatogramas e eles so transformados em uma seqncia e um ndice de confiabilidade associado a cada letra do DNA. Em um processo subseqente faz-se a anlise de seqncias que apresentam uma determinada seqncia de letras em comum para a gerao dos textos genmicos. Como j comentado, uma seqncia obtida no seqenciador possui aproximadamente 600 letras de DNA e um genoma consiste normalmente em uma seqncia de milhes ou bilhes de letras. Portanto, na produo de um genoma preciso alinhar as seqncias geradas uma aps a outra, verificando suas regies de sobreposio, para que seja possvel montar o conjunto de toda a informao gentica da espcie em estudo. Novas ferramentas para o alinhamento de seqncias, a padronizao de processos de base-calling, a montagem de seqncias para se gerar um genoma e a produo de ferramentas para identificao de genes, so alguns exemplos de projetos de bioinformtica tijolo, sem as quais impossvel a anlise eficiente dos edifcios genmicos. Vale notar ainda que as ferramentas de comparao de seqncias de DNA tm permitido um grande avano no que diz respeito identificao das funes de genes. Atravs da comparao entre a seqncia de um novo gene e um banco de dados de genes de funo conhecida, pode-se inferir rapidamente a possvel funo de um gene completamente desconhecido. Caso fosse necessria a realizao de testes experimentais para descobrirmos a funo de cada um dos genes que vm sendo descritos, possivelmente teramos ainda de pesquisar vrias dcadas antes de publicar um genoma com esta informao. A bioinformtica, portanto, permite uma rpida identificao da provvel funo de um gene seqenciado pela primeira vez. Como j dissemos, muita informao descrita durante projetos genoma e virtualmente impossvel a anlise de todos esses dados (ou mesmo uma pequena quantidade deles) pelo grupo que gerou a seqncia completa de DNA de um organismo. Assim, so necessrios trabalhos posteriores para a anlise de pedaos especficos de diferentes genomas, com o objetivo de produzir mais informao sobre um tema especfico como, por exemplo, as protenas para metabolismo de acares. Esses trabalhos de minerao de dados genmicos so caractersticos dos projetos da chamada bioinformtica peneira. Como a genmica essencialmente uma disciplina descritiva, os trabalhos publicados apresentam muitas informaes sem qualquer detalhamento, muitas vezes por prpria limitao do peridico cientfico. Na figura 2 vemos um exemplo da informao descritiva freqentemente presente em artigos de genoma, a diviso em grupos de genes de acordo com sua funo biolgica. Que informao relevante h de se tirar desse monte de dados?
73
Figura 10.2. Tpica figura apresentando informao de cunho descritivo que encontrada em artigos cientficos sobre genomas. Aqui feita a descrio das porcentagens de genes encontrados no genoma que apresentam diferentes funes biolgicas. interessante observar que h, ao redor do mundo, alguns centros especializados em seqenciamento de genomas, publicando seqncias e mais seqncias para que outros pesquisadores possam ter informaes disponveis para fazer seus prprios estudos de minerao de dados. Usando peneiras especficas, os cientistas em todo o mundo podem ser capazes de gerar conhecimento mais aprofundado sobre aspectos particulares de seu prprio interesse. A construo de bancos de dados de seqncias de genes com uma ou outra funo especfica ou de estruturas tridimensionais de protenas, por exemplo, consistem tambm em trabalhos montados no mbito da bioinformtica peneira e, todo ano, a primeira edio da revista britnica Nucleic Acids Research traz um resumo dos bancos de dados mais utilizados na rea da bioinformtica. Por fim, nos trabalhos de bioinformtica lupa onde a cincia se faz presente com maior clareza na rea genmica. Vale notar que todos os estudos de genoma e bioinformtica descritos at agora so de suma importncia para o aumento do conhecimento cientfico sobre os organismos e sobre suas constituies moleculares. Mas em estudos de bioinformtica lupa o mtodo cientfico rigorosamente aplicado. Aqui, atravs das mais variadas ferramentas computacionais possvel gerar metodologias algortmicas para testar hipteses e produzir resultados que verifiquem ou refutem suas afirmaes quando se observam dados genmicos. O processo investigativo cientfico retomado: observam-se os dados, criam-se hipteses e realizam-se experimentos in silico (dentro do computador) de forma a test-las atravs de algoritmos bioinformticos. Posteriormente, corroborada ou refutada a hiptese inicial a partir da anlise dos resultados obtidos. interessante notar que estudos dessa categoria no so necessariamente publicados em revistas especializadas em bioinformtica. Isso vem do fato de que os algoritmos montados aqui so apenas um detalhe e caracterizam a metodologia de um trabalho que tenta mostrar um resultado biolgico mais especfico. A bioinformtica no o centro do trabalho, como ocorre nas abordagens de tijolo e peneira. Nos trabalhos classificados como lupa, a hiptese e os resultados so mais importantes do que as ferramentas bioinformticas utilizadas como meio investigativo. Assim, tais estudos so freqentemente publicados nas revistas relacionadas com o organismo em que se est estudando, com o fenmeno estudado, ou em revistas especficas de gentica, biologia molecular ou bioqumica. Exemplos de estudos de bioinformtica lupa so aqueles onde alguma caracterstica biolgica de um determinado organismo explicada a partir
74
da observao de seu conjunto de seqncias gnicas ou proticas e da comparao com seqncias similares em organismos proximamente relacionados. Atravs desses estudos de genmica comparativa possvel associar aspectos da biologia dos organismos comparados presena ou a ausncia de determinado gene, grupo de genes ou processos metablicos. 10.6. Concluso Dessa forma, a bioinformtica, alm de outras cincias j bem estabelecidas, como a biologia molecular, a gentica e a bioqumica vm trazer uma abordagem baseada no mtodo cientfico aos dados gerados em projetos genoma. Vale notar, no mbito nacional, a iniciativa pioneira da CAPES (Coordenao para o Aperfeioamento de Profissionais de Ensino Superior) na induo da criao de cursos de doutorado na rea de bioinformtica, que resultou em dois cursos implementados recentemente no pas (UFMG e USP) que j apresentam dezenas de alunos em processo de formao nessa rea estratgica. Conclui-se, a partir do presente ensaio, que os estudos de genomas so importantes para produzir um grande nmero de informaes sobre a anatomia molecular de uma espcie. Informaes estas que podero ser utilizadas como pontos de partida para a produo de novos conhecimentos cientficos atravs de diferentes paradigmas experimentais, utilizando abordagens in vitro, in vivo ou in silico, esta ltima sendo representada por metodologias baseadas na criao de algoritmos dessa nova e importante cincia do sculo XXI, a bioinformtica.
10.7. Brainstorm 1. Defina bioinformtica com suas prprias palavras. 2. Sua viso sobre bioinformtica e genoma foi modificada aps a realizao deste curso? O que voc pensava antes e pensa agora? 3. As pesquisas genmicas so cientficas? O que voc entende por cincia? 4. Como voc definiria a expresso anatomia molecular? 5. Cite exemplos e discorra sobre a bioinformtica tijolo. 6. Cite exemplos e discorra sobre a bioinformtica peneira. 7. Cite exemplos e discorra sobre a bioinformtica lupa e explique por que os trabalhos de lupa normalmente no so publicados em revistas de bioinformtica. 8. Voc consegue pensar em mais algum paradigma da bioinformtica atual? 9. Qual foi a aula mais interessante, em sua opinio? Por que? 10. Qual foi a aula que voc achou mais complicada? Por que? 11. D sua apreciao geral sobre o curso realizado.
75
SOBRE O AUTOR
Francisco Prosdocimi de Castro Santos nasceu em Belo Horizonte, no ano de 1979, e atualmente professor e pesquisador da Universidade Catlica de Braslia. Ministra disciplinas de Biologia Molecular e Bioinformtica para alunos da graduao em Cincias Biolgicas e Cincias Biomdicas. Na ps graduao em cincias genmicas, Francisco ministra aulas de bioinformtica, anlises de genomas e filogenia molecular. Francisco bilogo (2001), mestre em Gentica (2003) e doutor em Bioinformtica (2006) pela UFMG, tendo trabalho como ps-doutor na Frana durante um ano e meio (2008/2009) e tendo passagens acadmicas de mdia ou curta durao pela Inglaterra (2005), Alemanha (2006) e Estados Unidos (2009). Francisco tem ainda interesse por divulgao cientfica, histria e filosofia da cincia (http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidades em msica e literatura (http://chicopros.blogspot.com) ou seus ideais democrticos, ambientalistas, humanistas e liberais.

Bioinformatica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioinformatica

Enviado por

Direitos autorais:

Formatos disponíveis

CURSO ON LINE

Prof. Dr. Francisco Prosdocimi

Aos meus pais

O que preciso saber para ser um bom bioinformata?

Cursos de ps-graduao em bioinformtica no Brasil

Conversando sobre bioinformtica BIOCHAT

Dr. Francisco Prosdocimi Vanderson:

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Francisco: Dr. Francisco Prosdocimi Adonis: Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Marx: Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Carla: Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Carla: Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Pedro: Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi Ricardo:

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Dr. Francisco Prosdocimi

Pedro: Dr. Francisco Prosdocimi

Referncias Bibliogrficas e textos complementares

O PERL e outras linguagens de programao

Query: 301 acacacatatcaaagcagtccataaaggt 329 ||||||||||||||||||||||||||||| Sbjct: 436 acacacatatcaaagcagtccataaaggt 464

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Seq1 Seq4 Seq2 Seq3

-----------------------------------------------------------ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 Seq4 Seq2 Seq3

Seq1 Seq4 Seq2 Seq3

Seq1 Seq4 Seq2 Seq3

Seq1 Seq4 Seq2 Seq3

Sobre genomas eucariticos e procariticos

QUALIDADE PHRED = -10 * log10 (Probabilidade de Erro)

Figura 4.2. O agrupamento de seqncias baseado no alinhamento e no escore do alinhamento de seqncias.

Sobre a cobertura dos genomas

SAGE Serial Analysis of Gene Expression

A realizao da Anotao Genmica (Sociologia da Anotao)

Iniciando nossa Interao

Figura 8.1. Eventos de paralogia e ortologia. Adaptada de Jensen, 2001

genoma completo e protenas. Com estudos de nosso forma como nos

Figura 9.2. O desafio da modelagem por homologia.

Você também pode gostar