Você está na página 1de 14

BIOINFORMÁTICA

BIOINFORMÁTICA CAPÍTULO 6

João Carlos Setubal

• Introdução
• Como se pode achar genes num genoma?
• O método da similaridade
• O método intrínseco
• Um resumo de tópicos atuais em bioinformática
• Bioinformática no Brasil
• Para saber mais
• Referências bibliográficas
• Súmula curricular

© Direitos reservados à EDITORA ATHENEU LTDA 105


© Direitos reservados à EDITORA ATHENEU LTDA
106
BIOINFORMÁTICA

INTRODUÇÃO mática precisa sempre manter-se atento aos progressos re-


centes, para não se dedicar a um problema cuja tecnologia de
O conceito bioinformática tem um espectro de significa- base já esteja ultrapassada. Em contraste, os problemas da
dos. Na ponta mais restrita e prática, significa não mais do classe (2) são aqueles que independem de particulares tecno-
que qualquer utilização de computadores para tarefas em bi- logias. Um exemplo é o problema de encontrar os genes num
ologia. Na ponta mais abrangente e teórica refere-se ao es- genoma. Tal problema será importante indefinidamente, ou
tudo e entendimento do mundo biológico através dos pelo menos enquanto houver interesse em localizar genes em
princípios e técnicas das ciências da informação, mundo este genomas novos. Por esse motivo, e por encapsular vários dos
que vai desde as moléculas da vida, tais como DNA e prote- conceitos fundamentais da bioinformática, é esse o problema
ínas, até englobar toda a biosfera. Neste capítulo, utilizamos escolhido para detalhamento no que segue.
um significado intermediário e relativamente restrito. Bioin- O entendimento do capítulo requer uma boa compreen-
formática para nós será o conjunto das técnicas advindas da são do que seja um algoritmo, o qual é uma seqüência finita
matemática, estatística e computação aplicadas a problemas de passos ou operações bem-definidas que objetiva resolver
da biologia molecular, em particular aos problemas da genô- determinado problema. Um exemplo de algoritmo familiar às
mica. Mesmo neste sentido restrito, a bioinformática tornou- pessoas em geral é o empregado para multiplicar dois núme-
se de capital importância para o progresso científico e ros. É importante ressaltar que um algoritmo constitui um pro-
tecnológico da biologia como um todo nos últimos anos. Tudo cedimento abstrato, que independe da sua forma de expressão
indica que tal importância crescerá, fazendo essa nova dis- e, mais ainda, do mecanismo que o executa. Isto se contrasta
ciplina se aproximar cada vez mais da ponta abrangente do com o conceito de programa, que é a implementação de um
espectro. algoritmo usando uma particular linguagem de programação.
A bioinformática já cresceu o suficiente para que seja im- Programas são portanto entidades bem mais concretas do que
possível apresentá-la no seu todo num único livro e muito me- algoritmos, e assim sendo estão mais próximos daquilo que é
nos em um único capítulo. Assim, o objetivo deste capítulo é efetivamente executado por computadores.
apenas o de dar uma idéia geral sobre o assunto. Para isso, um Cabe aqui mencionar que dentre as diversas linguagens
problema que encapsula várias das atuais questões da bioinfor- de programação, a linguagem mais utilizada em bioinformá-
mática é apresentado com relativo detalhe. Ao final, é dada tica é a Perl. Trata-se de uma linguagem que permite a rápida
uma descrição sumária de alguns outros tópicos importantes. construção de programas bastante concisos. Esses programas
Aos que se interessam pela ou querem se dedicar à bioin- entretanto não são tão eficientes quanto aqueles produzidos
formática, é importante distinguir duas classes de problemas: por uma linguagem de mais baixo nível (e que portanto re-
(1) aqueles oriundos das diversas técnicas biotecnológicas; quer mais esforço de programação), como C++.
(2) problemas de natureza biológica propriamente dita. Um
problema típico da classe (1) é o da montagem dos genomas.
Resumidamente, trata-se de reconstituir, de forma computa- COMO SE PODE ACHAR GENES NUM
cional, o genoma de um organismo com base em pequenos GENOMA?
fragmentos de seqüências de DNA que têm sobreposição en-
Considere a seqüência de DNA apresentada na Fig. 6.1,
tre si. Esse problema é motivado pela limitação atual em nos-
tal como poderia aparecer na tela de um computador, após ter
sa capacidade de leitura das seqüências do DNA. As atuais
sido obtida por uma máquina seqüenciadora.
máquinas seqüenciadoras são capazes de ler aproximadamente
1.000 bp de cada vez. Para reconstituir um genoma com três Vamos chamar de S a seqüência mostrada na Fig. 6.1.
milhões de bp são, portanto, necessários muitos fragmentos Ela está sendo apresentada num formato universalmente aceito
(no mínimo 3.000, já que 3.000 × 1.000 = três milhões; na para processamento, conhecido como formato FASTA. Nes-
verdade, pelo menos 100 mil fragmentos são necessários para se formato, a primeira linha é apenas um identificador; a se-
que haja um número suficientemente grande de sobreposi- qüência propriamente dita aparece nas linhas subseqüentes.
ções que permita a montagem). O problema da montagem é A seqüência, por si só, nos é inútil: é apenas uma “sopa de
importante e tem de ser resolvido cada vez que um novo ge- letrinhas”. Sua utilidade apenas terá início, quando pudermos
noma é seqüenciado. No entanto, claramente ele existe por extrair a informação nela contida. Entre todos os tipos de in-
causa da limitação tecnológica atual. Caso essa limitação ve- formação contidos numa seqüência de DNA, talvez o gene seja
nha a ser superada, de forma que sejamos capazes de ler dire- o mais importante. Nesta seção, iremos apresentar as idéias
tamente um genoma completo, o problema deixará de haver. básicas que permitem que os genes sejam encontrados em se-
Tal como esse, existem vários outros problemas em bio- qüências de DNA através de programas de computador.
informática vinculados a uma particular tecnologia de extra- Embora o conceito geral de gene seja relativamente sim-
ção de informação biológica. Como tais tecnologias estão ples, os seus detalhes podem ser complicados, principalmen-
progredindo muito rapidamente, o interessado em bioinfor- te quando o organismo de onde veio o gene é complexo. Por

© Direitos reservados à EDITORA ATHENEU LTDA 107


FUNDAMENTOS DA GENÔMICA

>Seqüência S
AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC
GTC C ATATC C C AG A AGAC G G C G G C C G G C ATC G C GT G C G G AGTC AGTTC G G
TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC
GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA
CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT
GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC
CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA
CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC
TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC
G G C G AT G C G C G C C T G G AC G C C AC C G G C G C C A AC G C G G G C A ATATC T TC C T
TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA
TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT
GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC
GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT
A C G AG G G G C C G G TC G G TATC C T G A G C G C G C TC G C C G A A G G G G C G G A G G A C
GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA
CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG
AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG
GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC
TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG
AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC
CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT
CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG

Fig. 6.1 — Uma seqüência de DNA com informação desconhecida.

esse motivo, suporemos, nesta seção, que nosso objetivo é o que significa que o trecho codificante sempre está contido
de encontrar os genes num genoma de uma bactéria. Genes dentro de um quadro aberto de leitura (em inglês, open rea-
de bactérias são consideravelmente mais simples do que ge- ding frame, abreviado por ORF), dado por qualquer trecho
nes de organismos mais complexos, como é o caso do ser de DNA que, iniciando-se numa determinada base, contém
humano. Suporemos, também, que estamos interessados ape- um número de nucleotídeos que é múltiplo de 3 e que termina
num códon de parada, não havendo nenhum outro códon de
nas nos genes que codificam proteínas (há genes que codifi-
parada entre o início e o término. Observe que uma seqüên-
cam moléculas de RNA).
cia de DNA qualquer sempre define seis diferentes quadros
Os genes de bactérias que codificam proteínas podem de leitura. Na fita direta, existem três: aquele que começa na
ser descritos conforme a Fig. 6.2. Há um trecho promotor, primeira base, o que se inicia na segunda base, e aquele que
seguido do trecho codificante, seguido do terminador. O tre- começa na terceira base. O complemento reverso da seqüên-
cho codificante se inicia com um códon de início, que na cia define analogamente outros três quadros de leitura.
maioria dos casos é dado pela trinca ATG. Ele termina com Podemos agora, então, voltar ao problema desta seção:
um dos três possíveis códons de parada (TAA, TGA, TAG), o dada uma longa cadeia de DNA que representa o genoma de

Fig. 6.2 — Estrutura esquemática de um gene de procarioto.

© Direitos reservados à EDITORA ATHENEU LTDA


108
BIOINFORMÁTICA

uma bactéria, onde estão as porções codificadoras dos seus As barras verticais indicam as posições em que a base de
genes que codificam proteínas? Esta pergunta pode ser resol- s é igual à base de t. Esses são os casamentos. Podem ocorrer
vida de duas formas, as quais ilustram dois métodos básicos correspondências em que não haja casamentos: as bases cor-
da bioinformática. respondentes são diferentes. É o que ocorre na coluna 6. Tais
O primeiro é o método da similaridade. Para saber se casos são também chamados de substituições. Na coluna 8,
determinado trecho do genoma abriga um gene, podemos vemos que foi necessário inserir um espaço (indicado pelo
compará-lo com seqüências de genes já conhecidos. Se des- hífen) em s. A base T que aparece em t nessa posição pode
cobrirmos que nossa seqüência é “muito parecida” com a se- ser considerada como uma inserção em t. Nas colunas 3 e 12,
qüência de um gene já conhecido, teremos fortes razões para vemos que há espaços em t. Tais casos são considerados re-
supor que nossa seqüência também contém um gene. Isso vem moções em t com relação a s.
da forma como ocorre a evolução molecular. Uma estrutura A partir de um alinhamento, podemos quantificar a simi-
que “dá certo” na natureza, em termos evolutivos, acaba sen- laridade entre duas seqüências, usando um sistema de pontu-
do reutilizada ou duplicada um número incontável de vezes. ação. Exemplo de um tal sistema é: iremos atribuir uma certa
Portanto, alta similaridade entre seqüências quase sempre pontuação para cada coluna do alinhamento conforme sua
indica mesma estrutura e mesma função (embora o contrário natureza. Para cada coluna com casamento, atribuímos +1;
não seja necessariamente verdadeiro; há proteínas com a para cada coluna com bases diferentes, atribuímos –1; e para
mesma função, mas cujas seqüências ou, mesmo, estruturas cada coluna em que há espaço, atribuímos –2. A pontuação
são muito diferentes). do alinhamento é dada pela soma das pontuações das colu-
O segundo método analisa as características intrínsecas nas. No exemplo linhas atrás, teremos: + 1 + 1 – 2 + 1 + 1 – 1
da seqüência, procurando diferenciar os trechos codificantes + 1 – 2 + 1 + 1 + 1 – 2 + 1 + 1 = 3.
dos trechos que não são. É um método mais poderoso, por ser Dadas duas seqüências, é possível alinhá-las de diversas
capaz de detectar a presença de genes mesmo quando estes formas. O alinhamento indicado anteriormente é apenas um
não são parecidos com outros já existentes. entre vários possíveis. Diferentes alinhamentos terão em ge-
Vamos agora detalhar cada um desses métodos. ral diferentes pontuações. Podemos, agora, definir o que é
similaridade. A similaridade entre duas seqüências é dada
pelo alinhamento que tem maior pontuação entre todos os
O MÉTODO DA SIMILARIDADE alinhamentos possíveis.
Mas, como podemos encontrar o alinhamento de maior
Na base deste método, encontram-se o conceito de simi-
pontuação? Isso exige o emprego de um algoritmo de com-
laridade e um algoritmo de comparação de seqüências. Quando
paração de seqüências. Vamos, agora, descrever brevemente
comparamos duas seqüências, o que significa dizer que uma
como funciona um tal algoritmo. É importante mencionar que
“é parecida” com outra? Como podemos quantificar essa no-
ele se baseia na técnica de programação dinâmica, uma téc-
ção de similaridade?
nica de projeto de algoritmos muito usada em bioinformáti-
A resposta depende de um outro conceito, o de alinha- ca, e que tem esse nome por motivos históricos, resolvendo
mento. Dadas duas seqüências s e t, um alinhamento entre um problema com a utilização de soluções de subproblemas.
elas é uma forma de colocar uma sobre a outra, de modo a
Os três subproblemas fundamentais do algoritmo de com-
obter uma correspondência entre cada base de s e cada base
paração de duas seqüências s e t, ilustrados na Fig. 6.4, são:
de t. Podemos inserir espaços em s ou em t, objetivando ex-
(1) s menos seu último símbolo comparado com toda a se-
plicitamente proibir uma correspondência ou, simplesmente,
qüência t; (2) t menos seu último símbolo comparado com
para completar posições faltantes. Um exemplo de alinha-
toda a seqüência s; (3) s menos seu último símbolo compara-
mento é apresentado na Fig. 6.3.
do com t menos seu último símbolo. O caso (1) vai nos obri-
gar a alinhar o último símbolo de s com um espaço; o caso
(2), analogamente, vai nos obrigar a alinhar o último símbolo
1 2 3 4 5 6 7 8 9 0 1 2 3 4 de t com espaço; e o caso (3) vai nos obrigar a alinhar o últi-
mo símbolo de s com o último símbolo de t. Esses três casos
s= G A T C T C A – GT A A T A
esgotam as possibilidades do que pode acontecer no final do
| | | | | | | | | | alinhamento. Iremos escolher um dos três casos, calculando
suas respectivas pontuações. O caso escolhido será aquele
t= G A – C T A A T GT A – T A
que tiver maior pontuação. É claro que tal abordagem só po-
Fig. 6.3 — Um alinhamento entre seqüências s e t. Os números acima derá funcionar se soubermos a solução (a pontuação) dos sub-
do alinhamento são para a referência de colunas; os traços verticais problemas descritos. Mas estas podem ser encontradas
indicam casamento entre bases. seguindo o mesmo raciocínio apresentado (exigindo a solu-

© Direitos reservados à EDITORA ATHENEU LTDA 109


FUNDAMENTOS DA GENÔMICA

mento de pontuação máxima entre duas seqüências. Tal ga-


rantia existe para o algoritmo de programação dinâmica. Mas
na prática isso em geral não é um problema, por ser rara a
1 situação em que o BLAST deixa de encontrar o alinhamento
ótimo ou mesmo um alinhamento importante. Por esse moti-
vo, na apresentação que se segue são usados os resultados do
BLAST.
O BLAST é geralmente usado em associação com o ban-
co de seqüências do National Center for Biotechnology In-
2 formation dos EUA. Para aplicarmos o método da similaridade
usando o BLAST, devemos utilizar nossa seqüência como
uma consulta (query) a esse banco, e o resultado da execução
do BLAST pode ser um ou mais hits em seqüências-sujeito
(subject), ou seja, seqüências pertencentes ao banco. O
BLAST devolve resultados acompanhados da pontuação dos
alinhamentos (chamado de score) e da significância estatísti-
3 ca dessa pontuação. Tal significância estatística é crucial para
podermos distinguir alinhamentos biologicamente significa-
tivos daqueles que são apenas fruto do acaso. Ela é dada em
termos de um valor conhecido como e-value. Quanto menor
Fig. 6.4 — Os três possíveis alinhamentos entre duas seqüências s e t, o e-value, mais significativo o alinhamento. E-values meno-
levando em conta apenas o último símbolo. res do que 0,00001 são mostrados como potências de 10, tais
como 10–20, cuja representação na saída do BLAST é e-20.
Para aplicarmos o programa BLAST à seqüência S, te-
ção de subsubproblemas). Para evitar cálculos redundantes, a
mos antes que escolher qual banco de seqüências será pes-
implementação eficiente do algoritmo exige que comecemos
quisado. Na situação que estamos apresentando, o ideal é
o cálculo com os primeiros símbolos e não com os últimos.
utilizar um banco de proteínas, que contém porções codifi-
Os resultados obtidos, à medida que se progride em direção
cantes de genes já traduzidas em aminoácidos. A razão desta
aos últimos símbolos, são guardados numa tabela, conhecida
escolha vem do fato de que é mais fácil descobrir seqüências
como a matriz de programação dinâmica. Seu tamanho é igual
similares à nossa em termos de aminoácidos do que de nucle-
ao produto do tamanho de s pelo tamanho de t, o que mostra
otídeos, o que vem da degeneração do código genético, ex-
que o algoritmo de programação dinâmica exige um gasto de
plicada a seguir.
memória proporcional a esse produto. Tal exigência é o prin-
cipal fator que limita o uso da técnica de programação dinâ- Um mesmo aminoácido pode, em geral, ser codificado
mica na comparação de seqüências muito grandes (como seria por diferentes códons. Dois genes correspondentes em orga-
o caso da comparação de dois genomas com milhões de pares nismos diferentes (isto é, genes ortólogos, aqueles que codi-
de bases cada um). ficam a mesma proteína e são descendentes de um mesmo
gene ancestral) em geral são semelhantes, quando traduzidos
O algoritmo de comparação de seqüências, baseado em
em aminoácidos, mas diferentes, quando comparados em ter-
programação dinâmica, mais usado atualmente é conhecido
mos de nucleotídeos. Um dos organismos pode ter uma pre-
como algoritmo de Smith-Waterman. Em relação ao que foi
ferência pela codificação dos aminoácidos diferente da
descrito linhas atrás, este algoritmo tem de diferente apenas
preferência do outro organismo.
uma forma mais sofisticada para a inserção de espaços no
alinhamento (levando em conta que do ponto de vista bioló- Isso significa que teremos de traduzir a seqüência S em
gico faz mais sentido ter um grupo de espaços consecutivos aminoácidos em todos os quadros de leitura, antes de fazer a
do que o mesmo número de espaços espalhados e isolados comparação. Felizmente, existe uma versão do BLAST que
uns dos outros). A relativa lentidão desse algoritmo e sua faz isso automaticamente. Tal versão é chamada de BLAS-
exigência de memória (a matriz) levaram ao desenvolvimen- TX. Aplicando o BLASTX à nossa seqüência, obteremos o
to de programas mais rápidos porém que em contrapartida resultado mostrado na Fig. 6.5. Vamos examinar detalhada-
não são tão “precisos” quanto o Smith-Waterman. Entre es- mente esse resultado.
ses programas, o mais conhecido e usado é BLAST, uma sigla A Fig. 6.5 mostra o resultado gráfico da comparação da
que significa basic local alignment search tool. seqüência S com as seqüências de proteínas disponíveis no
A imprecisão do BLAST vem do fato de que esse pro- banco do NCBI. A seqüência de consulta é representada pela
grama não nos dá a garantia de que vai encontrar o alinha- barra vermelha graduada, e os números indicam posição na

© Direitos reservados à EDITORA ATHENEU LTDA


110
BIOINFORMÁTICA

Fig. 6.5 — Resultado gráfico dos alinhamentos produzidos pelo BLAST, usando as seqüências como consulta e as seqüências do Genbank como
sujeitos. Esta figura foi obtida na página da web do National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/).

seqüência em termos de nucleotídeos. A referida figura mos- S. Já o início da porção codificante em nossa seqüência é
tra que foram encontrados 16 hits no banco, todos alinhados menos claro, tendo em vista a variação que se nota na borda
aproximadamente na região central de S. As similaridades de esquerda dos alinhamentos.
cada alinhamento são indicadas por cores. Os hits com pon- O próximo passo é verificar quais são os hits encontra-
tuação igual ou melhor a 200 estão coloridos de vermelho; os dos, o que é fornecido na segunda parte do resultado do
hits com potuação entre 80 e 200, pela cor roxa, e os hits com BLAST, conforme o mostrado na Fig. 6.6.
pontuação entre 50 e 80, pela cor verde.
Há quatro colunas na Fig. 6.6. A primeira mostra os iden-
Todos esses hits são significativos, mostrando que nossa tificadores dos hits conforme as convenções do NCBI. A se-
seqüência muito provavelmente contém, de fato, um gene. O gunda mostra o início da descrição de cada hit. Uma rápida
exame dos alinhamentos nessa figura mostra o interessante inspeção mostra que os hits provêm de “proteínas hipotéticas
fato de que praticamente todos eles terminam no mesmo pon- conservadas”, o que será explicado mais adiante. Em alguns
to; isso ocorre porque há um códon de parada nesse ponto em dos hits, podemos ler entre colchetes o começo do nome do

SEQUENCES PRODUCING SIGNIFICANT ALIGNMENTS: Score (bits) E-Value

gi|21220158|ref|NP_625937.1| conserved hypothetical protein... 253 3e-66


gi|23019851|gb|ZP_00059560.1| hypothetical protein [Thermob... 231 2e-59
gi|2145747|pir||S72871 hypothetical protein B2126_F1_36 - M... 220 3e-56
gi|15841617|ref|NP_336654.1| conserved hypothetical protein... 219 7e-56
gi|15609262|ref|NP_216641.1| hypothetical protein Rv2125 [M... 218 2e-55
gi|15827676|ref|NP_301939.1| conserved hypothetical protein... 213 5e-54
gi|28572605|ref|NP_789385.1| conserved hypothetical protein... 206 6e-52
gi|28493284|ref|NP_787445.1| unknown [Tropheryma whipplei s... 206 6e-52
gi|23465301|ref|NP_695904.1| narrowly conserved hypothetica... 135 2e-30
gi|23335129|ref|ZP_00120367.1| hypothetical protein [Bifido... 108 1e-22
gi|15609851|ref|NP_217230.1| hypothetical protein Rv2714 [M... 91 3e-17
gi|15827483|ref|NP_301746.1| conserved hypothetical protein... 88 3e-16
gi|23018661|gb|ZP_00058376.1| hypothetical protein [Thermob... 84 3e-15
gi|19553127|ref|NP_601129.1| hypothetical protein [Coryneba... 80 5e-14
gi|25028371|ref|NP_738425.1| conserved hypothetical protein... 79 2e-13
gi|21220479|ref|NP_626258.1| conserved hypothetical protein... 77 5e-13

Fig. 6.6 — Descrições resumidas das seqüências alinhadas pelo BLAST conforme a Fig. 6.3. Estas informações foram obtidas na página da web
do National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/).

© Direitos reservados à EDITORA ATHENEU LTDA 111


FUNDAMENTOS DA GENÔMICA

gi|13620188|emb|CAC36365.1| conserved hypothetical protein [Streptomyces coelicolor A3(2)]


Length = 333

Score = 253 bits (647), Expect = 3e-66


Identities = 127/273 (46%), Positives = 174/273 (63%)
Frame = +1

Consulta: 226 ILVVAFEGWNDAGEAASGAVKTLKDQLDVVPVAEVDPELYFDFQFNRPVVADDDGRRRLI 405


++V AFEGWNDAG+AAS AV L + A +D E Y+DFQ NRP V +DG R++
Sujeito: 14 VMVAAFEGWNDAGDAASTAVAHLDREWKGEVFAALDAEDYYDFQVNRPTVFMEDGVRKIT 73

Consulta: 406 WPSAEILGPARPGDTGDARLDATGANAGNIFLLLGTEPSRSWRSFTAEIMDAALASDIGA 585


WP+ L R G G ++ L+ G EPS WRSF E++ A +
Sujeito: 74 WPTTR-LSVVRVG—————GDKPRDLVLVRGIEPSMRWRSFCNELLGFAHELGVEL 122

Consulta: 586 IVFLGAMLADVPHTRPISIFASSENAAVRAELGIERSSYEGPVGILSALAEGAEDVGIPT 765


+V LGA+L D PHTRP+ I ++ +A + + +E + YEGP GI+ L E G+P
Sujeito: 123 VVVLGALLGDTPHTRPVPISGTTSDADLARRMDLEETKYEGPTGIVGILQEACTHAGVPA 182

Consulta: 766 ISIWASVPHYVHNAPSPKAVLALIDKLEELVNVTIPRGSLVEEATAWEAGIDALALDDDE 945


+S+WA+VPHYV P+PKA LAL+++LE+L+ V +P G L E+A AW+ G+D LA +D E
Sujeito: 183 VSLWAAVPHYVSQPPNPKATLALLNRLEDLIGVRVPLGELPEDARAWQVGVDQLAAEDTE 242

Consulta: 946 MATYIQQLEQARDTVDSPEASGEAIAQEFERYL 1044


+A Y+Q LE+ARDT + PEASGEAIA+EFERYL
Sujeito: 243 VAEYVQSLEEARDTAELPEASGEAIAREFERYL 275

Fig. 6.7 — Informação detalhada sobre um dos alinhamentos mostrados na Fig. 6.3. Estas informações foram obtidas na página da web da
National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/).

organismo ao qual pertence a seqüência. Na terceira coluna comparável do que a pontuação. O número de colunas com
vemos a pontuação e na quarta coluna o e-value. Os resulta- pontuação positiva também é reportado (174) e no alinha-
dos da quarta coluna mostram que todos os hits encontrados mento aparecem na linha do meio com o sinal +.
são estaticamente significativos (em geral considera-se que O leitor atento estranhará que aminoácidos diferentes ali-
e-values menores ou iguais a 10–5 são significativos). nhados possam ter pontuação positiva, tendo em vista o que
Após esse resumo, são mostrados os alinhamentos pro- foi dito linhas atrás para os sistemas de pontuação. Ocorre
priamente ditos com a apresentação do cabeçalho completo que, ao comparar proteínas, é preciso levar em conta que
de cada hit. Vamos examinar o primeiro dos referidos alinha- aminoácidos formam famílias com propriedades específicas.
mentos, aquele que é mais significativo (Fig. 6.7). Isso significa que a substituição de um aminoácido por outro
Vemos que tal hit provém do organismo Streptomyces pode não levar à mudança na estrutura ou função da proteína,
coelicolor, uma bactéria. O comprimento desse gene é de 333 dependendo da relação que existe entre o aminoácido velho e
aminoácidos. O alinhamento produzido tem 273 colunas (dado o novo. Estudos extensos levaram à construção de matrizes
pelo denominador da fração 127/273), o que mostra que não de pontuação para as proteínas que encapsulam essas rela-
houve um alinhamento total do gene de S. coelicolor. Isso ções; um grupo de tais matrizes, chamadas de BLOSUM, é
pode ser visto em mais detalhes no alinhamento propriamen- utilizado pelo BLAST nas comparações. Tais matrizes dão
te dito. Ele começa no resíduo 14 do gene subject, e termina valores que se devem usar no cômputo da similaridade para o
no resíduo 275. O número 273 vem da conta 275 – 14 + 1 alinhamento entre cada possível par de aminoácidos i e j. Uma
mais o número de espaços (1 + 10) que foram inseridos no pontuação positiva mostra que i e j têm alguma afinidade. É o
alinhamento (estes aparecem na linha que começa na posição caso dos pares (I, V), (L, M), (Q, E), (R, K), etc., que se
74 do subject). Em 127 destas colunas existem casamentos, podem ver no alinhamento da Fig. 6.7.
que são chamados de identidades e que totalizam 46% das Além de nos informar que a nossa seqüência S muito pro-
colunas. É comum reportar o número de casamentos entre vavelmente contém um gene, os resultados do BLAST nos
duas seqüências, por ser mais facilmente compreensível e permitem estimar onde começa a sua porção codificante. Para

© Direitos reservados à EDITORA ATHENEU LTDA


112
BIOINFORMÁTICA

>Seqüência S
AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCC
GTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGG
TCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGAC
GGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGA
CGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGT
GGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGAC
CAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGA
CTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCC
TCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACC
GGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCT
TCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGA
TCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGT
GCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTC
GAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGT
ACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGAC
GTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCA
CAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAG
AGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACG
GCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGC
TACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTG
AGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGC
CGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCT
CTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG

Fig. 6.8 — A seqüência com o trecho contendo a parte codificante de um gene está ressaltada em vermelho. Em azul, está um trecho do sítio de
ligação ribossomal.

isso, usamos os alinhamentos fornecidos pelo BLAST, a pre- anotação não foi possível descobrir nenhum gene conhecido
sença de possíveis códons de início de tradução (em geral, similar a este que tivesse função determinada; porém, genes
ATG, GTG ou TTG) nas proximidades do início dos alinha- significativamente parecidos e sem função conhecida foram
mentos e a presença de uma subseqüência que indica a presen- detectados em outros organismos, o que levou à inclusão do
ça do sítio de ligação ribossomal. No caso das bactérias, esta adjetivo “conservado” na descrição. Exatamente o mesmo
subseqüência, em geral, é GGAGG ou AGGAG. Um exame ocorre com o nosso gene. Caso no futuro algum desses genes
da seqüência S, levando em conta todos esses fatores, mostra tenha sua função determinada, imediatamente poderá ser for-
que de fato existe GGAGG poucas bases a montante (em in- mulada a hipótese de que todos os que são significativamente
glês, upstream) de um GTG próximo ao início dos alinhamen- similares a ele têm mesma função.
tos, e que este GTG começa um quadro aberto de leitura. Aqui é importante ressaltar a palavra hipótese. A maio-
A porção codificante do gene contido na seqüência S re- ria dos resultados “biológicos” conseguidos através das fer-
sultante desta análise é mostrada em vermelho na Fig. 6.8; o ramentas de bioinformática classifica-se apenas na categoria
provável sítio de ligação ribossomal é mostrado em azul. Con- de hipótese, portanto requerendo confirmação (ou refutação)
vém mencionar que a realização desta análise de detecção do experimental.
início da porção codificante, de forma automática, para todos
os genes de um genoma é uma típica tarefa de bioinformática.
O MÉTODO INTRÍNSECO
Embora o resultado do BLAST tenha sido bastante sig-
nificativo, não é suficiente para que possamos atribuir uma O método aqui chamado genericamente de intrínseco
possível função ao gene encontrado. Neste caso particular, os parte do princípio de que um gene representa informação,
hits não têm função definida, conforme mostra sua descrição portanto não é um conjunto aleatório de símbolos. Ademais,
como “proteínas hipotéticas conservadas”. Tal anotação do sabe-se empiricamente que a maioria dos genes de uma bac-
genoma da bactéria S. coelicolor indica que no momento da téria segue um certo padrão característico do organismo. A

© Direitos reservados à EDITORA ATHENEU LTDA 113


FUNDAMENTOS DA GENÔMICA

idéia do método é identificar esse padrão, capturá-lo num O tipo do padrão buscado nas seqüências do conjunto de
modelo, codificar tal modelo num programa e buscar novas treinamento leva em conta sua composição em termos de ba-
seqüências no genoma que obedeçam ao modelo capturado, ses (as proporções relativas de A, C, G e T) e as particulares
usando esse programa. Assim, nenhuma informação externa subcadeias presentes nas seqüências. Cada seqüência é anali-
ao genoma do organismo é utilizada na captura, daí a caracte- sada, para verificar situações do seguinte tipo: dada uma base
rização do método como intrínseco. A, qual é a freqüência com que é seguida de um outro A, ou
O primeiro passo do método é identificar o padrão obe- de um C, ou de um G, ou de um T? O mesmo é feito para as
decido pela maioria dos genes. Para isso, é necessário que demais bases. Esta análise pode ser estendida para a segunda
tenhamos alguns genes autênticos do organismo em estudo, base após a base em exame. Ou seja, qual é a freqüência com
para tentar descobrir seu padrão. O conhecimento sobre es- que um A é seguido de um G e depois por um T? Dispondo
ses genes pode vir de experimentos de laboratório; mas, no da tabulação de tais freqüências, é possível construir um
caso de organismos não estudados previamente, um modo de modelo matemático que tente capturar o padrão seguido pelo
identificar tais genes leva em conta o fato de que os genomas conjunto de treinamento. Pelo exposto, fica claro que se trata
das bactérias são densos em termos de genes. Em geral, mais de um modelo probabilístico.
de 80% da seqüência de um genoma de bactéria são ocupa- Uma ilustração (parcial) desse tipo de modelo aparece
dos por porções codificantes dos genes que produzem prote- na Fig. 6.9. Nela cada base aparece dentro de um círculo, e
ínas. Além disso, sabe-se (empiricamente) que os genes das setas ligam os círculos entre si. Os círculos representam os
bactérias costumam ter, em média, cerca de 1.000 bp de ta- estados do modelo. A+ é o estado que representa a base A,
manho. Como conseqüência, quadros abertos de leitura com quando pertencente a um gene. A– é o estado que representa
pelo menos 1.000 pares de bases quase com certeza contêm a base A, quando não pertencente a um gene. Nem todos os
porções codificantes dos genes. Basta, então, identificar tais estados e setas entre estados são mostrados, para não carre-
quadros (o que é fácil computacionalmente falando) e usá- gar demais a figura. Há um estado especial chamado “início”
los no processo de captura do padrão. Essas seqüências for- e rotulado com I. Os números nas setas indicam a probabili-
marão o conjunto de treinamento (um conceito muito comum dade de transição entre um estado e outro. Observe que a
em bioinformática). soma das probabilidades a partir do estado A+ é 1. Ao aplicar

0,026
0,25 0,18 A-

0,12
A+ T+
0,25

0,4
0,274 0,384
I
0,25

C+ G+
0,25

Fig. 6.9 — Apresentação parcial de um modelo de Markov com estados ocultos para o reconhecimento dos trechos codificantes dos genes dos
procariotos.

© Direitos reservados à EDITORA ATHENEU LTDA


114
BIOINFORMÁTICA

o modelo para a busca de um gene, procederíamos, grosso Ao estudarmos os genes e genomas, é fundamental le-
modo, da seguinte forma. Vemos que a partir do estado inici- varmos em conta que eles são resultado de uma longa evolu-
al as quatro bases são igualmente prováveis. Imagine que as ção. O estudo das relações evolutivas entre as espécies de
três primeiras bases da seqüência lida foram ATG. O modelo organismos e seus genes e genomas exige a reconstrução des-
permite-nos calcular a probabilidade dessa cadeia, supondo sas relações, que em geral se materializam na forma de árvo-
que pertença a um gene (portanto supondo que os estados são res filogenéticas. Um problema importante da bioinformática
A+T+G+). Ela é dada por 0,25 × 0,12 × 0,384 = 0,01152. é o de reconstruir uma árvore filogenética a partir de um con-
Essa probabilidade deve, então, ser comparada com a proba- junto de seqüências representativas de diferentes organismos.
bilidade de encontrar ATG numa seqüência aleatória, não A abordagem mais comum começa com um alinhamen-
pertencente a um gene (A–T–G–). Caso a primeira seja signi- to múltiplo entre as seqüências dadas. Este é um problema
ficativamente maior do que a segunda, então essas três bases que generaliza o problema da similaridade indicado linhas
poderão, de fato, fazer parte de um gene. atrás. Naquele caso, o objetivo é o de comparar apenas duas
Modelos do tipo descrito são conhecidos na literatura seqüências entre si. Neste caso, teremos k seqüências para com-
como modelos de Markov de estados ocultos (em inglês, hid- parar ao mesmo tempo, k > 2, e o resultado da comparação
den Markov models, HMM). A palavra “oculto” vem do fato deverá ser um alinhamento com k linhas, em vez de apenas
de que a priori não sabemos se uma dada cadeia está dentro duas. Um tal alinhamento, quando bem feito, mostrará o que as
de um gene ou não; no exemplo linhas atrás, ao ver ATG não seqüências dadas têm em comum; ademais, ele servirá de ponto
sabemos se na verdade estamos vendo A+T+G+ ou A–T–G– de partida para a reconstrução da árvore filogenética que re-
(ou A+T–G– e demais variantes). A aplicação do modelo vai laciona as k espécies representadas por suas seqüências. Exis-
justamente nos permitir inferir a seqüência correta dos esta- tem diversos métodos para a construção de alinhamentos
dos. Tais modelos são largamente utilizados em bioinformá- múltiplos e para a reconstrução de árvores filogenéticas, mas
tica, sendo a busca de genes apenas uma dentre várias outras mesmo uma visão geral de tais métodos foge do escopo deste
aplicações. As referências bibliográficas contêm informações capítulo.
sobre como se aprofundar no assunto. Outro problema importante é o da predição das estrutu-
ras tridimensionais das moléculas biológicas (RNA e proteí-
Uma vez gerado o modelo a partir do conjunto de treina-
nas) a partir de suas seqüências primárias. É a estrutura
mento e incorporado ao programa de busca, este é executado
tridimensional de uma proteína que determina sua função.
sobre o genoma de interesse. O programa localizará, então,
Embora seja possível deduzir a estrutura de muitas proteínas
uma série de trechos do genoma, os quais têm grande proba-
através de métodos, tais como a cristalografia e ressonância
bilidade de conterem genes autênticos do organismo. O de-
nuclear magnética, estes são processos custosos e nem sem-
sempenho do programa será tão melhor quanto melhor for o
pre aplicáveis. Existem evidências que indicam que toda a
conjunto de treinamento e quão “mais bem comportados” (em
informação necessária para deduzir a estrutura tridimensio-
relação ao conjunto de treinamento) forem os genes do orga-
nal de uma proteína está contida em sua seqüência de amino-
nismo. Genes cuja composição se desvia muito do padrão ácidos, o que motiva a busca por programas capazes de fazer
dado pelo modelo não serão encontrados ou terão uma pon- tal dedução de forma confiável. Esta é uma área de pesquisas
tuação abaixo do limite mínimo de aproveitamento. Por este bastante ativa, com vasta literatura.
motivo, na busca de genes o ideal é combinar o método da
similaridade com o método intrínseco, justamente por serem A obtenção da descrição de todos os genes de um geno-
de certa forma complementares. ma de determinado organismo é apenas o primeiro passo para
a compreensão das bases moleculares do funcionamento des-
Conforme já mencionado, a busca automática de genes se organismo. O passo seguinte requer o entendimento de
em bactérias (ou em procariotos de um modo geral) é bem como os genes e seus produtos interagem entre si e com o
mais simples do que no caso dos eucariotos. Os genes destes meio ambiente. Tais interações são bastante complexas, e seu
organismos, como se sabe, contêm íntrons, o que dificulta estudo abre um novo e vasto campo da biologia molecular, às
muito seu reconhecimento automático. Tal situação faz com vezes chamado de biologia de sistemas. É um campo que
que a busca automática de genes em eucariotos ainda seja apresenta um elenco de problemas para a bioinformática bas-
uma ativa área de pesquisa. tante diverso daquele da genômica “tradicional”, baseada prin-
cipalmente na análise de seqüências.
UM RESUMO DE TÓPICOS ATUAIS EM Um desses problemas é o estudo da expressão gênica atra-
BIOINFORMÁTICA vés de tecnologias, tais como os chamados microarrays. Tal
tecnologia permite verificar quais genes de um organismo
Nesta seção, apresentamos uma visão geral de outros tó- são mais ou menos expressos (ou seja, são mais ou menos
picos em que as ferramentas de bioinformática desempenham ativos na produção de suas respectivas proteínas) em relação
um papel importante. aos demais genes, quando o organismo é submetido a dife-

© Direitos reservados à EDITORA ATHENEU LTDA 115


FUNDAMENTOS DA GENÔMICA

rentes condições externas ou no decorrer do tempo. A detec- Uma boa medida da atividade atual em bioinformática
ção de que um certo conjunto de genes tem o mesmo com- no Brasil é o número de resumos submetido à conferência
portamento de expressão para uma dada condição pode levar ICOBICOBI (International Conference on Bioinformatics and
à conclusão de que esses genes fazem parte de determinada Computational Biology), realizada em Ribeirão Preto em maio
rede gênica. Um problema importante da atual bioinformáti- de 2003, a primeira do gênero no Brasil. Foram apresentados
ca é o de deduzir automaticamente quais são essas redes a 165 resumos, dos quais mais de 80% se referem à bioinfor-
partir de resultados de experimentos com microarrays ou tec- mática no sentido mais restrito usado neste capítulo.
nologias similares. Tendo em vista o exposto, pode-se afirmar que o país
conta hoje com vários grupos capacitados a dar o suporte
BIOINFORMÁTICA NO BRASIL necessário em bioinformática a projetos dos mais variados
(e, nesse sentido, o Brasil se destaca em relação aos demais
Nesta seção, é apresentado um panorama geral das ativi- países da América Latina); que já existe pesquisa de qualida-
dades da bioinformática no Brasil, em 2003. de internacional voltada para o desenvolvimento de novas
ferramentas em bioinformática; e que tal atividade vai cres-
A bioinformática no Brasil, no sentido usado neste capí-
cer muito em anos vindouros, causando rápida obsolescência
tulo, tem suas origens no projeto genoma da bactéria Xylella
do resumo apresentado nesta seção.
fastidiosa, realizado entre 1997 e 2000. Um projeto genoma
requer uma infra-estrutura computacional sofisticada e a rea-
lização de diversas análises in silico do genoma em estudo. PARA SABER MAIS
Tal infra-estrutura e análises foram possíveis graças ao Labo-
ratório de Bioinformática (LBI) do Instituto de Computação Existem hoje diversos bons livros gerais de bioinformá-
da Universidade Estadual de Campinas, São Paulo. Esse la- tica, entre os quais destacamos os de Baxevanis e Ouellete1 ,
boratório foi formado pelos professores João Carlos Setubal bem como Mount2, que têm mais uma característica de ma-
e João Meidanis, com posterior contribuição do pesquisador nuais do assunto. Um livro que tem mais uma característica
João Paulo Kitajima. Após o projeto Xylella, o LBI seguiu de livro-texto, sendo, portanto, mais adequado para o ensino
dando suporte em bioinformática a vários outros projetos de de bioinformática, é o Krane e Raymer3 (um livro, porém,
seqüenciamento, tarefa que realiza até hoje. Ao mesmo tem- não muito abrangente). Um livro que faz uma síntese interes-
po, serviu de inspiração para a formação de vários outros la- sante das técnicas e problemas da bioinformática, sem forne-
boratórios de bioinformática acadêmicos no estado de São cer grandes detalhes, é o de Kanehisa4.
Paulo e fora dele. Em conseqüência, pode-se dizer que grande Para técnicas e algoritmos para análise de seqüências com
parte da atividade em bioinformática conduzida no Brasil na base probabilística a melhor referência é o livro de Durbin e
atualidade está vinculada a laboratórios desse tipo que traba- outros5. Este livro é particularmente recomendado para os
lham em projetos genoma semelhantes ao projeto da Xylella. interessados em modelos de Markov de estados ocultos. Um
Entre esses laboratórios, podem-se citar o grupo de Ana Tere- outro bom livro nessa linha é o de Baldi e Brunak6. Um artigo
za Ribeiro de Vasconcellos, do Laboratório Nacional de Com- recente que faz uma interessante síntese das técnicas de aná-
putação Científica, em Petrópolis, Rio de Janeiro; o grupo de lise de seqüências, traçando um paralelo com técnicas da lin-
Gonçalo Pereira, do Instituto de Biologia da Universidade güística, é de autoria de Searls7.
Estadual de Campinas; o grupo de Sergio Verjovski-Almei-
Algoritmos de programação dinâmica para a compara-
da, do Departamento de Bioquímica do Instituto de Química
ção de seqüências é um assunto bem exposto no livro de Se-
da Universidade de São Paulo; e o grupo de Sandro José de
tubal e Meidanis8. O livro de Gusfield9 é uma verdadeira
Souza, do Instituto Ludwig de Pesquisa sobre o Câncer, em
enciclopédia de algoritmos para os mais diversos problemas
São Paulo.
relacionados a seqüências quaisquer, embora o autor dê gran-
Com a percepção da crescente importância da bioinfor- de ênfase às aplicações em biologia molecular.
mática, vários outros grupos acadêmicos no Brasil passa- O livro de Pevzner10 é a melhor referência para proble-
ram a atuar nessa área, sem estar necessariamente ligados a mas diversos da biologia computacional de natureza combi-
projetos genoma ao estilo do projeto Xylella. Entre tais gru- natória (e não probabilística).
pos, cabe destacar o constituído na Universidade de São
Paulo, com atividades das mais diversas em bioinformática, A bioinformática para a biologia de sistemas é algo que
indo desde a pesquisa para a produção de bases de dados está apenas começando, e portanto ainda carece de referênci-
especialmente concebidas para aplicações em bioinformáti- as bem-estabelecidas. Duas recomendáveis são o capítulo de
ca até o projeto e desenvolvimento de algoritmos sofistica- Ideker, Galitski e Hood11 e o artigo de Kitano12.
dos para a análise das imagens associadas a experimentos Entre as obras de áreas que dão sustentação à bioinfor-
de microarrays. mática pelo lado das ciências exatas, cabe mencionar pelo

© Direitos reservados à EDITORA ATHENEU LTDA


116
BIOINFORMÁTICA

menos duas. Em algoritmos, a melhor referência é o livro de mais citados da história da ciência, o que dá uma medida do
Cormen, Leiserson, Rivest e Stein13. Em estatística, uma boa impacto que a bioinformática vem tendo na moderna biolo-
referência é o livro de Ewens e Grant14, com exemplos espe- gia molecular.
cíficos de biologia molecular. O artigo que descreve os resultados do projeto genoma
Com exceção talvez da referência2, os trabalhos citados Xylella fastidiosa apareceu em Simpson20. A tese de mestra-
têm um caráter predominantemente teórico. Um manual de do de V. K. Okura21 mostra toda a infra-estrutura de bioinfor-
bioinformática particularmente indicado para novatos e inte- mática montada para esse projeto, grande parte da qual foi
ressados em aspectos bem práticos é o de Guibas e Jambeck15. aproveitada em projetos posteriores.
Do lado prático, cabe mencionar também uma boa referência
Para finalizar, cabe lembrar as conferências e revistas
para aqueles interessados em aprender a linguagem Perl16.
internacionais mais relevantes em bioinformática. As revis-
Para os interessados especificamente no problema da tas são: Bioinformatics, publicada pela Oxford University
busca de genes em procariotos, um artigo recomendado é o Press; e Journal of Computational Biology, publicado por
de Delcher et al.17, onde se descreve um programa específico Mary Ann Liebert. As conferências são: ISMB (Intelligent
para esse fim, que usa um método baseado em modelos de Systems for Computational Biology), organizada pela Inter-
Markov de estados ocultos. O número de programas para national Society for Computational Biology (www.iscb.org);
encontrar genes em procariotos e especialmente em eucario- e RECOMB (International Conference on Research in Com-
tos é bastante grande; os livros-texto1,2,5,6 contêm referências putational Molecular Biology), patrocinada principalmente
adicionais. pela Association for Computing Machinery (a principal as-
Esta seção não ficaria completa sem as devidas referên- sociação americana em ciência da computação). Ambas são
cias aos dois artigos que descrevem o programa BLAST. São anuais, e a ISMB deverá ocorrer no Brasil em agosto de 2006,
eles: Altschul et al.18 e Altschul et al.19. Estes são os artigos em Fortaleza, Ceará.

REFERÊNCIAS BIBLIOGRÁFICAS
1. Baxevanis A, Ouellette B. Bioinformatics. A practical guide to the analysis 12. Kitano, H. Computational Systems Biology. Nature, 420, pp. 206-210,
of genes and proteins. Wiley-Intescience, 2a ed., 2001. 2002.
2. Mount DW. Bioinformatics. Sequence and genome analysis. Cold Spring 13. Cormen T, Leiserson C, Rivest R, Stein C. Algoritmos, teoria e prática. Edi-
Harbor Laboratory Press, 2001. tora Campus, 2002.
3. Krane DE, Raymer ML. Fundamental concepts of bioinformatics. Benja- 14. Ewens W, Grant GR. Statistical methods in bioinformatics. An introduction.
min Cummings, 2003. Springer-Verlag, 2001.
4. Kanehisa M. Post-genome informatics. Oxford University Press, 2000. 15. Guibas C, Jambeck P. Developing bioinformatics computer skills. O’Reilly,
2001.
5. Durbin D, Eddy S, Krogh A, Mitchison G. Biological sequence analysis.
Probabilistic models of proteins and nucleic acids. Cambridge University 16. Schwartz R, Christiansen T. Learning perl, segunda edição. O’Reilly, 1997.
Press, 1998. 17. Delcher AL, Harmon D, Kasif S, White O, Salzberg SL. Improved microbial
6. Baldi P, Brunak S. Bioinformatics. The machine learning approach. MIT gene identification with GLIMMER. Nucleic Acids Research, 27(23):4636-
Press, 1998. 4641, 1999.

7. Searls D. The language of genes. Nature, 420, pp. 211-217, 2002. 18. S Altschul S, Gish W, Miller W, Myers E, Lipman D. Basic Local Alignment
Search Tool. Journal of Molecular Biology, 215:403-410, 1990.
8. Setúbal JC, Meidanis J. Introduction to computational molecular biology.
19. Altschul S, Madden T, Schäffer A, Zhang J, Zhang Z, Miller W, Lipman D.
PWS, 1997.
Gapped BLAST and PSI-BLAST: a new generation of protein database se-
9. Gusfield D. Algorithms on strings, trees, and sequences. Cambridge Univer- arch programs. Nucleic Acids Research, 25:3389-3402, 1997.
sity Press, 1997.
20. Simpson, AJG et al. The complete genome sequence of the plant pathogen
10. Pevzner P. Computational Molecular Biology. An algorithmic approach. MIT Xylella fastidiosa. Nature, 406:151-157, 2000.
Press, 2000.
21. Okura, VK. Bioinformática de projetos genoma de bactérias. Dissertação de
11. Ideker T, Galitski T, Hood L. A new approach to decoding life: systems biology. Mestrado, Instituto de Computação, Universidade Estadual de Campinas,
Annual Review of Genomics and Human Genetics, 2:343-372, 2001. 2002.

© Direitos reservados à EDITORA ATHENEU LTDA 117


FUNDAMENTOS DA GENÔMICA

SÚMULA CURRICULAR

JOÃO CARLOS SETUBAL


Instituto de Computação — Universidade Estadual de Campinas
Caixa Postal 6176 — CEP 13084-971 — Campinas-SP
Tel.: (19) 3788-5867/3788-5849 — Fax: (19) 3788-5847 — E-mail: setubal@ic.unicamp.br

Títulos Universitários Assessorias


• Engenharia: Formado em Engenharia Mecânica pela Escola • Entidades científicas nacionais: consultor científico do CNPq,
Politécnica da USP, em 1979. FAPESP.
• Mestrado: Ciência da Computação pelo Instituto de Matemáti- • Revistas científicas: revisor de várias revistas e congressos
ca, Estatística e Ciência da Computação da Unicamp, em 1987; científicos nacionais e internacionais.
computer science pelo Department of Computer Science and
Engineering, University of Washington, Seattle, EUA, 1989. Prêmios Científicos
• Doutorado: Computer science, pelo Department of Computer • Mérito Científico e Tecnológico, concedido pelo governo do
Science and Engineering, University of Washington, Seattle, Estado de São Paulo em 2000 pela participação no projeto
EUA, 1992.
genoma Xylella fastidiosa.
• Livre-docência: Fundamentos da Ciência da Computação, Ins-
tituto de Computação, Unicamp, 1998. Resumo da Produção Acadêmica e Científica
Funções Atuais Publicações
• Chefe do Laboratório de Bioinformática do Instituto de Com- Periódicos internacionais, 8
putação da Unicamp desde 1997. Capítulos de livros internacionais, 3
• Assessor Adjunto da Diretoria Científica da FAPESP desde Livros internacionais, 1
março de 2003.
Congressos
Cargos e Funções Exercidos Trabalhos apresentados em congressos internacionais, 6
• Chefe do Departamento de Teoria da Computação do Institu-
to de Computação da Unicamp, 1996-1998. Formação e seleção de pessoal
• Pesquisador IIB do CNPq. Teses defendidas/mestrado, 5
• Pesquisador Visitante do Genome Sciences Department, Uni- Teses defendidas/doutorado, 1
versity of Washington, Seattle, EUA, 2000-2001. Teses em andamento, 6

© Direitos reservados à EDITORA ATHENEU LTDA


118

Você também pode gostar