Você está na página 1de 19

UNIVERSIDADE SEVERINO SOMBRA APOSTILA DE BIOINFORMTICA CURSO DE BIOMEDICINA Coordenao: Prof. Thais Faggioni Elaborao do Material: Prof. Dra.

Lvia Melo Villar

Bioinformtica O conceito de bioinformtica pode ser resumido como a utilizao de tcnicas advindas da matemtica, estatstica e computao para a anlise de problemas de biologia. O termo bioinformtica um conceito relativamente recente, o qual apareceu na liter atura pela primeira vez na dcada de 90. Contudo como pode ser visto pelo breve histrico apresentado a seguir, a pesquisa em bioinformtica no um assunto novo, sendo que os marcos inicia is da pesquisa datam da dcada de 60. Breve Histrico da Bioinformtica 1962 Teoria da Evoluo Molecular Pauling 1965 Margaret Dayhoff Atlas de seqncias de protenas 1970 Algoritmo de Needleman-Wunsch comparao entre seqncias 1977 Seqenciamento de DNA e desenvolvimento de softwares para anlise de seqncias R. Staden 1981 Desenvolvimento do algoritmo de Smith-Waterman 1982 Publicao do Release 3 do GenBank 1982 Seqenciamento do Genoma do Fago lambda 1983 Algoritmo de busca de seqncias em bancos de dados Wilbur-Lipman 1985 Comparao rpida de seqncias FASTAP/FASTAN 1988 Criao do National Center for Biotechnology Information (NCBI) 1988 Rede EMBnet para distribuio de bancos de dados 1990 Mtodo mais rpido de comparao de seqncias BLAST 1991 EST: Etiquetas de seqncia transcrita 1993 Criao do Sanger Center, Hinxton, UK 1994 Criao do EMBL European Bioinformatics Institute 1995 Seqenciamento completo dos primeiros genomas bacterianos 1996 Genoma completo da levedura S. cereviseae 1998 Genoma completo de C.elegans (multicelular) 1999 Genoma completo de D. melanogaster 2001 Genoma completo de Homo sapiens Principais Programas Utilizados na Anlise Bioinformtica

O nmero de programas utilizados em bioinformtica tem crescido significativamente n os ltimos anos e inclui ferramentas diversas como algoritmos para clusterizao de seqncias, ali nhamento de seqncias de nucleotdeos e protenas, predio de genes inteiros (ORFs que so as Open Reading Frame ou janela aberta de leitura, regio da sequncia nucleotdica que traduz ida em uma protena) em seqncias, anotao automtica de genes, construo de rvores filogenticas Abaixo h uma lista dos principais programas utilizados na anlise bioinformtica. Nomeao de Bases ps-seqenciamento: o PHRED Alinhamento de Seqncias: o BLAST, ClustalW, FASTA Anlise de alinhamentos: o Consed Montagem de Seqncias: o PHRAP, CAP3 Anlise Filogentica:

o PHYLIP, SEQBOOT, PROTDIST, NEIGHBOR, CONSENSE, TreeView Predio de Genes: o GRAIL, GENSCAN, FGENEH, GENMARK, PROCRUSTES, NIX,

RUMMAGE e Genotator Anlise de Estrutura de Protenas e modelagem molecular: o STING, Modeller Anotao automtica: o Blast2go, AutoFact, Garsa Anotao de Seqncias

O objetivo principal e definitivo de todos os esforos empregados em seqenciamento descobrir funes moleculares (bioqumicas) e celulares de todos os produtos gnicos cod ificados por estas seqncias. A interpretao da informao contida nas seqncias, isto , a anota gnica, entretanto, uma tarefa no trivial e tem sido objeto de intensa pesquisa. A priori,a anotao gnica pode ser dividida em trs etapas: a anotao no nvel de nucleotdeo, a ano nvel protico e a anotao no nvel de processos. A fase inicial da anotao, feita no nv nucleotdeos tem como atividade principal a localizao de marcadores atravs de mapeame nto e a procura de genes na seqncia de DNA. Nesta fase so primeiro identificados marcadores produzidos atravs de mapeamentos feitos por anlises genticas, citogenticas ou de hbri dos de radiao.

Este conjunto de marcadores funcionam ento como pontos de referncia para a anlise subseqente: a procura por genes. Uma vez identificados os genes, so ento identifica das seqncias correspondentes a RNAs no codificadores, seqncias regulatrias, elementos repetitivos e polimorfismos. Aps a anotao no nvel de nucleotdeos, inicia-se a etapa d e anotao no nvel protico. Esta etapa constituda da nomeao das protenas do organismo e associ

possveis funes a estas protenas. Neste caso, so utilizados bancos de dados de seqnci primrias, estruturais, de famlias gnicas ou de domnios funcionais como as bases SWIS S-PROT, Protein Data Bank (PDB) ou PFAM. Depois destes dois nveis tem incio ento a etapa de anotao no nvel de processos. Esta etapa tem como objetivo relacionar o genoma a processo s biolgicos, isto , estabelecer como os constituintes de um genoma se relacionam com o ciclo c elular, a morte celular, embriognese, metabolismo e manuteno da sade do organismo. Este processo dep ende da existncia de um banco de dados dotado de um esquema de classificao associado a f unes biolgicas conhecidamente descritas, com especificidade suficiente para distinguir entre protenas que sejam membros de uma mesma famlia gnica. A base de dados Gene Ontology (GO) cr iada em 1991 um repositrio desta natureza. A procura por genes codificadores de protenas, tem sido amplamente utilizada por vrios projetos de genmica funcional. Esta etapa , em geral realizada em genomas de proca riotos sem maiores dificuldades, uma vez que ela consiste basicamente na identificao de janel as abertas de leitura na seqncia produzida. Em eucariotos, por outro lado, o processo de busca d

e genes complicado pela presena de ntrons e stios de splicing alternativo. Por essa razo, mto dos diversos para a predio de genes em seqncias eucariticas tem sido amplamente utilizado s De maneira geral, a procura por genes feita a partir de dois mtodos de predio distinto s designados respectivamente, extrnsecos e intrnsecos. Em genomas recm seqenciados, genes so anota dos primariamente com base em sua homologia com protenas j caracterizadas em outros ge nomas. Este enfoque designado extrnseco por desconsiderar as caractersticas existentes na seqncia investigada. Os programas baseados em busca de homologia que so utilizados neste tipo de abordagem, tem como premissa a conservao existente entre as seqncias de diferentes e spcies. Tais programas utilizam sensores que exploram a similaridade existente entre uma regio genmica desconhecida e uma seqncia de protena ou nucleotdeos presente em um banco de dados, para determinar se a regio em questo ou no uma regio codificadora. Para detectar a simila ridade entre seqncias, estas so alinhadas em um processo que consiste na comparao de duas seqncias diferentes do mesmo organismo, ou de organismos diferentes, para gerar um alinhamento local timo. Alinhar duas seqncias consiste em estabelecer uma correspon dncia entre as bases dessas seqncias de modo que a ordem no seja violada. Por ordem enten de-se que

as bases nas posies n1 e n2 (n1 < n2) de uma seqncia esto associadas respectivamente bases nas posies m1 e m2 da outra seqncia (m1 < m2).

Os algoritmos para predio intrnsecos so baseados em padres de reconhecimento de caractersticas especficas do gene em associao com a anlise do contedo da seqncia. Caractersticas especficas da seqncia normalmente associadas a presena de genes (promotores, cdons de incio e finalizadores, stios de splicing, etc .) so utilizadas como sinais para inferir a presena de um gene juntamente com a distrib uio de nucleotdeos que apresenta diferenas em regies que contm genes e regies intergnicas. A combinao da informao proveniente destes padres permite no s a localizao de genes completos em uma seqncia genmica como tambm de estruturas gnicas parciais nas extremidades da seqncia analisada. Seqenciamento, Montagem e Anlise de Genomas Um genoma pode ser definido como todo o conjunto de informaes genticas de um organismo, sendo constitudo usualmente por uma ou mais molculas de DNA, na vasta m aioria dos seres, ou RNA, no caso de algumas famlias de vrus. As primeiras tcnicas para o estu do de genomas visavam obter informaes gerais sobre a sua composio (tamanho aproximado, porcentagem de nucleotdeos, nmero de cromossomos, localizao de genes, etc.) j que no existiam metodologias para a obteno da seqncia do mesmo. Essa realidade mudou quando foi desenvolvida a tcnica de seqenciamento de DNA. Est e processo consiste basicamente no uso da enzima DNA polimerase, que capaz de sint etizar uma nova fita de DNA a partir de uma fita simples (i.e., uma fita que no esteja anela da com a sua fita complementar), um iniciador (uma pequena molcula de DNA que complementar fita sim ples) e nucleotdeos livres. O processo de replicao, se realizado normalmente em uma clula, g eraria uma molcula de DNA fita dupla a partir de uma molcula fita simples, mas, ao utilizarmo s este processo para o seqenciamento, geramos vrias molculas de DNA, cada uma possuindo um tamanho diferente. Isso ocorre porque, ao invs de utilizarmos somente nucleotdeos aturais , utilizamos tambm nucleotdeos que possuem duas propriedades especiais: n

Cada categoria de nucleotdeo (A, C, T e G) possui uma marcao fluorescente individual izada, ou seja, cada um deles possui um corante que diferente de todos os outros; Quando estes nucleotdeos so incorporados nova fita de DNA eles interrompem a sntese desta fita, impedindo que a replicao continue nessa molcula. Com o uso destas duas propriedades o seqenciamento passa a ocorrer porque a dupli cao, ao invs de gerar molculas de DNA do mesmo tamanho a partir das molculas de fita sim ples, passa a gerar molculas que possuem tamanhos diferentes entre si de apenas um nucl eotdeo j que, ao acrescentarmos aleatoriamente um dos nucleotdeos especiais , a duplicao da cadeia i r ser

interrompida. A figura 1 mostra esquematicamente como esse processo ocorre: Pequeno ------------------------> Grande

Figura 1 Representao esquemtica do seqenciamento de DNA. Observe esquerda as molcu que so geradas durante esse processo, cada uma possuindo um tamanho e, portanto, pesos molecula res diferentes entre si por apenas

um nucleotdeo. Como cada nucleotdeo especial possui uma cor amanho diferente, podemos deduzir a seqncia da molcula original.

e cada seqncia possuir u

interessante notar que essa tcnica demonstra todo o poder da biologia molecular, ao utilizar de enzimas e mecanismos da prpria clula in vitro para a obteno de seqncias d DNA. Neste ponto podemos falar em uso de engenharia gentica, j que nos utilizamos de um a protena (a DNA polimerase) sendo usada in vitro para a obteno da informao da seqncia. Entretanto os mtodos mais modernos so capazes de produzir seqncias de, no mximo, 1000 bases aleatrias dentro do genoma, o que significa que no existe conhecimento de qual regio a seqncia gerada deriva. Um genoma de um organismo celular pequeno (da bactria Esch erichia coli, por exemplo) possui aproximadamente 107 bases, e os maiores (como a ameba de vida livre Amoeba dubia) podem alcanar at mesmo 1012! Podem-se perceber assim alguns problema s que surgem com esse fato:

Necessidade da realizao de diversas reaes de seqenciamento para a obteno da seqnc completa; Uso de algum tipo de metodologia para ordenar as seqncias corretamente, de modo a f ormarmos os cromossomos inteiros; Em alguns genomas podemos encontrar at 98% de seqncias que so no codificadoras (i.e. no produzem uma protena), o que gera a necessidade de metodologias para encontrar os genes; O primeiro problema pde ser razoavelmente bem contornado aps a automatizao do processo de seqenciamento, que conta atualmente com robs capazes de realizar 384 r eaes de seqenciamento em 2 horas aproximadamente, mas os problemas seguintes foram os pri meiros a exigirem o uso de computadores para a anlise deste tipo de dado o que, podemos di zer, culminou por originar a bioinformtica. A ordenao das seqncias corretamente (processo conhecido tambm como montagem de genomas) feita atualmente atravs do uso de algoritmos que sobrepem as seqncias, busc ando por regies que possuam homologia entre si para podermos afirmar que elas esto orde nadas no cromossomo completo. Um exemplo de montagem de genoma pode ser visto na Figura 2

Figura 2 Montagem de genoma. A seqncia original mostrada acima, e as seqncias que obtemos at avs do seqenciamento podem ser vistas abaixo. Note que nenhum trecho da seqncia original d eixou de ser coberto pelas seqncias menores, o que muitas vezes pode no ocorrer na prtica. O terceiro tipo de problema existente, que seria a localizao dos genes dentro de g enomas, atualmente resolvido pelo uso de duas metodologias gerais e complementares:

Um grupo de seqncias dos mRNAs da clula e produzido e estes so os localizados nos genomas atravs de alinhamento; Caractersticas conservadas entre todos os genes nos genomas, tais como contedo GC, presena de promotores, presena de ORFs, etc. So utilizadas para encontrar genes no genoma Alinhamento e agrupamento de seqncias biolgicas:

A necessidade de se alinhar duas seqncias biolgicas (cidos nuclicos ou protenas) de uma maneira correta pde ser facilmente visualizada na seo anterior, no processo de montagem de genomas. Mas o que seria um alinhamento correto ? Esta pergunta pode ser respond ida de diversas maneiras, que variam em funo do tipo de seqncia e da pergunta biolgica que s e deseja responder. Inicialmente, para todos os tipos de alinhamento, a primeira tarefa decidir se i remos realizar um alinhamento global, no qual todos os elementos de ambas as seqncias so utilizados para o alinhamento, ou local, no qual se procura por regies parecidas entre as se qncias. Atualmente as tcnicas de alinhamento global esto em desuso, j que so computacionalme nte muito caras e no detectam uma srie de casos especiais da biologia (como inverso de domnios em protenas homlogas, por exemplo). Um de seus poucos usos para se encontrar seqncias muito relacionadas entre si, com o genes parlogos, utilizados em anlises filogenticas. Para o processo de montagem de genomas e localizao de genes utilizamos os mtodos locais, j que desejamos alinhar uma parte de uma seqncia com a parte mais parecida localizada na outra. Mas como definir o que parec ido ?

No caso de protenas, usualmente se deseja alinhar as mesmas para procurar por pos sveis protenas parecidas em bancos de dados de protenas. Para isso precisamos definir o quanto uma protena parecida com a outra j que, para cada posio, podemos encontrar 20 aminocidos Assim foram criadas matrizes de valores que indicam o quanto custa para um aminocid o substitudo por outro em protenas ortlogas. No caso de nmeros positivos, isso indica que usualmente encontramos os dois aminocidos ocupando a mesma posio em protenas distint as. Nmeros negativos indicam que estes aminocidos so encontrados poucas vezes na mesma posio. Uma das matrizes de substituio pode ser vista na figura 3. Figura 3 Matriz de substituio BLOSUM. Pode-se notar que aminocidos com caractersticas parecidas, como o triptofamo (W) e a tirosina (Y) possuem valores de substituio po sitivos. No caso de nucleotdeos, usualmente desejamos realizar uma de duas tarefas: alinh-l os para procurar por seqncias parecidas com a inicial em outros organismos (para a realizao de estudos filogenticos, por exemplo) ou para a montagem de seqncias maiores (como na montagem de genomas). Aqui no necessitamos definir o quanto um nucleotdeo parecido com outro, visto que tal informao no faz sentido do ponto de vista biolgico.

Protemica e Estrutura de Protenas Um dos tpicos de estudo de grande importncia em bioinformtica a anlise da relao entre seqncia, estrutura e funo de protenas As protenas exercem papis cruciais em virtualmente todos os processos biolgicos. Catalisam reaes qumicas, transportam e ar mazenam substncias, so necessrias no movimento coordenado, sustentao mecnica, proteo imunolgica, gerao e transmisso de impulsos nervosos, controle do crescimento e difer enciao, entre outras funes. As protenas so formadas por um repertrio de 20 aminocidos, compostos por um grupamento amina (NH2), uma carboxila (COOH), um tomo de hidrognio e um radical R diferenciado, todos ligados a um tomo de carbono. O grupamento R chamado cadeia l ateral e pode variar em tamanho, forma, carga, capacidade de formao de pontes de hidrognio e reatividade qumica. Os grupamentos esto arranjados em um tetraedro. Na anlise estrutural investigado como este conjunto de peas, conservado h pelo meno s 2 bilhes de anos, possibilita a construo das mais complexas estruturas tridimension ais atuantes em tantos processos biolgicos. Na cadeia polipeptdica, a carboxila de um aminocido se une amina do outro por uma ligao peptdica, com perda de uma molcula de gua. Uma unidade d e aminocido em um peptdeo chamada resduo. Por conveno, a ponta amnica chamada Nterminal e a outra, C-terminal. Desde o famoso trabalho de Sanger, em 1953, que determinou a seqncia da insulina, um gigantesca massa de dados de seqncias foi gerada e est disponvel em bases de dados pb licas. As anlises entre seqncias de resduos e estruturas tridimensionais podem revelar regr as que governem o enovelamento de cadeias polipeptdicas.

O clssico trabalho de Anfinsen com ribonucleases muito esclareceu sobre a relao ent re a seqncia de aminocidos de uma protena e sua conformao. Ele desnaturou a ribonuclease c m tratamento de -mercaptoetanol em uria 8M e verificou que, liberada desses reagent es, ela recuperava totalmente sua atividade enzimtica. Ento, percebeu o significado deste achado: a informao necessria para especificar a complexa estrutura tridimensional da ribonucl ease estava totalmente contida em sua seqncia. Como explicar, ento, que seqncias to dissimilares na composio de resduos se enovelem em to similar estrutura tridimensional e mesma funcionalidade? A mioglob ina de Elephas maximus (150 resduos) e a hemoglobina de Chironomous thummi thummi (136 r esduos) apresentam apenas 19% de identidade sequencial e no mais que 48% de similaridade. Porm, ambas so compostas por 8 -hlices com mesmo arranjo topolgico, ligam o grupo porfirni co e

transportam molculas de oxignio. Para o entendimento de toda essa complexidade, existe uma srie de outros temas qu e devem ser estudados tambm como, por exemplo, as interaes no-covalentes (eletrostticas , pontes de hidrognio e van der Waals), os efeitos da solvatao, assim como as atraes hidrofbicas. O progresso do seqenciamento de polipeptdeos proporcionou avanos tambm da elucidao do proteoma, conjunto completo de todas as protenas expressas na clula, com o so modificadas, seu funcionamento e interao com outras molculas. A ressonncia nuclear magntica e a difrao de raios-X so tcnicas que muito ajudaram no entendimento do enovelamento de protenas, de como elas reconhecem outras molculas e catalizam reaes qumicas. A bioinformtica muito tem auxiliado no desenvolvimento de algoritmos e ferramenta s para o entendimento das protenas. Apresentamos um poderoso conjunto dessas desses algo ritmos e sua utilizao no estudo de seqncia, estrutura e funo de protenas neste curso. Evoluo Molecular e Filogenia

O objetivo dos estudos de evoluo molecular consiste em compreender a importncia dos dados moleculares como uma ferramenta auxiliar no estudo das relaes filogenticas en tre os seres vivos. A anlise molecular pode confirmar ou refutar o que a anlise anatmica sugere ou fornecer pistas para os casos em que a filogenia de um determinado grupo de organismos no est bem definida para os pesquisadores.

Assim como a morfologia de um organismo, as suas molculas tambm so caractersticas hereditrias. E a evoluo dos seres vivos no seria possvel se o material gentico herdad de seus ancestrais no sofresse alteraes.O estudo das relaes evolutivas entre os seres vivos a vanou muito aps a descoberta do papel do DNA na determinao da hereditariedade. Os avanos n a rea bioqumica permitiram compreender quais eram os mecanismos responsveis pelas modifi caes de caractersticas ao longo das geraes. Essas caractersticas, interpretadas como adaptaes ao ambiente, eram a chave para a idia de seleo natural proposta por Charles Darwin.

Chamamos de Evoluo Molecular a rea de estudos que procura determinar os processos envolvidos nas alteraes das molculas encontradas nos seres vivos e estabelecer padre s para essas alteraes ao longo da escala evolutiva de tempo. Essa rea de estudo depende de tcnicas de laboratrio que permitem o seqenciamento de protenas e cidos nuclicos. Para isso, molc las retiradas de organismos de grupos diferentes so seqenciadas e comparadas. O estudo comparativo de DNA, RNA e protenas pode fornecer indcios sobre relaes filogenticas entre grupos d e seres vivos. Desde os anos 50, vrias tcnicas tm sido desenvolvidas em biologia molecular e utilizadas para estudos filogenticos. Os mtodos mais antigos e dispendiosos, como a eletrofor ese de protenas, hibridizao de DNA e mtodos imunolgicos logo foram substitudos pelo seqenciamento de protenas e principalmente de cidos nuclicos, que se tornaram amplam ente utilizados em estudos de relaes filogenticas entre populaes ou espcies. Os dados de seqncias de DNA foram utilizados para a montagem de rvores filogenticas em organismos proximamente (homens e macacos) ou distantemente relacionados (euc ariotos, eubacteria e archeoabacteria). A aplicao desses mtodos logo levou ao desenvolvimento de medidas de distncia gentica e de montagem de rvores que expressassem as diferenas observadas entre os organismos. Alguns pesquisadores utilizam os princpios da cla dstica para realizar as comparaes: eles procuram determinar quais seriam as condies ancestral e derivada da molcula analisada e constroem cladogramas a partir das condies derivadas. Portan to, os dados moleculares tm sido uma poderosa ferramenta de estudo da histria evolutiva, de for ma a possibilitar a reconstruo da filogenia dos maiores grupos de organismos vivos.

Em toda linhagem evolutiva, algumas caractersticas evoluem (mudam), enquanto outr as permanecem iguais. Portanto, podemos dizer que cada uma das espcies existentes ho je formada por um conjunto de caractersticas ancestrais que evoluram (com pouca ou nenhuma) a lterao desde ancestrais mais antigos, e caractersticas derivadas que sofreram mais mudana s recentes (deve-se observar aqui que uma caracterstica derivada no est necessariamente relaci onada com uma vantagem ou um progresso evolutivo, ela representa apenas uma caracterstica q ue surgiu mais tarde no processo evolutivo).

Vrios problemas podem causar danos em nosso DNA: a exposio luz ultravioleta do sol e aos raios X, a ingesto de molculas muito ionizadas (como os radicais livres), er ros durante a replicao, presena de toxinas, etc. interessante notar que, se o DNA fosse uma molcul a que no sofresse danos e que no produzisse erros durante seu processo de cpia, a evoluo no teria acontecido e bem provvel que no estivssemos aqui. Sabemos que mutaes no material gentico podem ocorrer por vrios processos e que essas

alteraes podem ser transmitidas s prximas geraes se as clulas da linhagem germinativ forem afetadas. Mutaes podem ocorrer de diversas maneiras, como perda ou substituies de nucleotdeos no DNA no momento de sua duplicao. As perdas acabam determinando alteraes

em toda a seqncia de nucleotdeos a partir do ponto onde ocorreu. As substituies podem ou no provocar alteraes na seqncia de aminocidos e comprometer a forma e a funo da proten importante notar que a mutao gerada no DNA ao acaso, no possvel prever o local e ne o tipo da substituio ou perda que ir ocorrer.

Se considerarmos casos em que a alterao da seqncia original de aminocidos no modifica a forma e a funo da protena. ( o que se observa quando comparamos um gene e uma protena encontrados em diferentes espcies: apesar das variaes na seqncia de nucleotd e de aminocidos, a protena possui o mesmo arranjo espacial e pode exercer funo semelhante em todos os grupos de seres vivos que a produzem.). Portanto, a variabilidade que pode ser encontrada na estrutura de uma molcula no corresponde necessariamente a uma variabilidade de funes. As substituies de nucleotde os (no DNA ou RNA) e de aminocidos (nas protenas) so portanto determinadas por uma taxa na tural de mutaes que ocorre nas molculas ao longo do tempo. Os cientistas utilizam esse ritmo constante de mutao em uma molcula como um relgio molecular. importante ressaltar que cada protena apresenta uma taxa de mutao diferente e, em alguns casos, regies distintas da mesma molcula possuem ritmos diferentes de mutao.

Por que utilizar molculas para o estudo da evoluo dos seres vivos, quando a comparao da morfologia e a anlise do registro fssil podem fornecer boas hipteses? Quanto mai s caractersticas forem utilizadas na deduo das relaes filogenticas entre grupos de sere vivos comparaes morfolgicas, dados moleculares, anlise dos fsseis mais confivel ser a hi elaborada. Bibliografia 1.Altschul, S. F., Gish, W., Miller, W., Myers, E. W. and Lipman, D. J. Basic Lo cal Alignment Search Tool. Journal of Molecular Biology, 215: 403-410, 1990. 2.Baxevanis, A. D. and Ouellette, B. F. F. Bioinformatics A practical Guide to t he Analysis of Genes and Proteins. John Wiley and Sons, New York, 2001. 3.Branden, C. e Tooze, J. Introduction to Protein Structure 2.ed .Garland Publish ing, 1999 4.Claverie, J.-M., Poirot, O. and Lopez, F. The Difficulty of Identifying Genes in Anonymous Vertebrate Sequences. Computers and Chemistry, 21: 203-214, 1997. 5.Futuyma, D. J. .Biologia evolutiva. 2.ed Sociedade Brasileira de Gentica, 1992 6.Gibas, C and Jambeck, P. Developing Bioinformatics Computer Skills. LeJeune, L . O Reilly, 2001. 7.Graur, D. and Li, W. H. Fundamentals of Molecular Evolution. 2nd Edition. Sina uer Associates, 1999. 8.Higa R.H., Togawa R.C., Montagner A.J., Palandrani J.C., Okimoto I.K., Kuser P .R., Yamagishi M.E., Mancini A.L., Neshich G. STING Millennium Suite: Integrated Software for E

xtensive Analyses of 3D Structures of Proteins and Their Complexes. BMC Bioinformatics, 2 004, 5(1):107 9.http://en.wikipedia.org/wiki/DNA_sequencing - Seqenciamento de DNA 10.http://en.wikipedia.org/wiki/Sequence_alignment - Alinhamento de seqncias 11.http://www.ncbi.nlm.nih.gov/Tools/ - Ferramentas de bioinformtica 12.Lesk, A. M. Introduction to Bioinformatics. 2nd Edition. Oxford University Pr ess, 2005.

13.Meidanis, J. and Setubal, J. C. Introduction to Computational Biology, PWS Pu blishing Company, 1997. 14.Schneider, H. Mtodos de Anlise Filogentica: Um Guia Prtico. 2.ed Ed. Holos Editora , 2003. 15.Stein, L. Genome Annotation: from Sequence to Biology. Nature Genetics, 2: 49 3-503, 2001.