Você está na página 1de 14

Pesquisa

Bioinformtica:
Manual do Usurio
Ilustraes cedidas pelos autores

Um guia bsico e amplo sobre os diversos aspectos dessa nova cincia


Francisco Prosdocimi

Fernando Camargo Filho

Mestrando em Gentica e Especialista


em Bioinformtica
Universidade Federal de Minas Gerais
franc@icb.ufmg.br

Mestrando em Biotecnologia Vegetal e


Especialista em Bioinformtica
Universidade de Ribeiro preto
camargo@odin.unaerp.br

Gustavo Coutinho
Cerqueira

Jayme Loureno Kessedjian


Analista de sistemas e Especialista em
Bioinformtica
Embrapa Agrobiologia
jayme@cnpab.embrapa.br

Bacharel em Cincia da Computao e


Especialista em Bioinformtica
Universidade Federal de Minas Gerais
cerca@csr.ufmg.br

Eliseu Binneck
Doutor em Cincia e Tecnologia de
Sementes e Especialista em
Bioinformtica
Embrapa Soja
binneck@cnpso.embrapa.br

Accia Fernandes Silva


Mestre em Agronomia e Especialista
em Bioinformtica
Empresa Pernambucana de Pesquisa
Agropecuria
acacia@ipa.br

Adriana Neves dos Reis


Bacharel em Informtica e Especialista
em Bioinformtica
Universidade do Vale do Rio dos Sinos
adriana@exatas.unisinos.br

Ana Carolina Martins


Junqueira
Mestre em Gentica e Biologia
Molecular e Especialista em
Bioinformtica
Universidade de Campinas
anacmj@unicamp.br

Ana Ceclia Feio dos Santos


Mestranda em Gentica e Biologia
Molecular e Especialista em
Bioinformtica
Universidade Federal do Par
cecifeio@ufpa.br

Antnio Nhani Jnior


Doutor em Bioqumica e Especialista
em Bioinformtica
Universidade Estadual Paulista
nhani@fcav.unesp.br

Charles I. Wust
Mestrando em Cincias da Computao e Especialista em Bioinformtica
Universidade Federal de Santa
Catarina
wust@inf.ufsc.br

12

Jorge H. Petretski
Prof. Associado e Especialista em
Bioinformtica
Universidade Estadual do Norte
Fluminense
jhpetretski@uenf.br
Luiz Paulo Camargo
Analista de Sistemas e Especialista em
Bioinformtica
Universidade de Ribeiro Preto
luizpcam@uol.com.br

Ricardo de Godoi Mattos


Ferreira
Bacharel em Cincias Biolgicas e Especialista em Bioinformtica
Universidade de So Paulo
ricgmf@lineu.icb.usp.br

INTRODUO
Do incio at meados do sculo passado os
geneticistas e qumicos se questionaram sobre a
natureza qumica do material gentico. Das pesquisas desenvolvidas, surgiu a concluso de que
o DNA era a molcula que armazenava a informao gentica e, em 1953, sua estrutura qumica foi desvendada no clssico trabalho de
Watson e Crick. Com a posterior descoberta do
cdigo gentico e do fluxo da informao biolgica, dos cidos nuclicos para as protenas, tais
polmeros passaram a constituir os principais
objetos de estudo de uma nova cincia, a Biologia Molecular. Logo surgiram mtodos de seqenciamento desses polmeros, principalmente
do DNA, que permitiam a investigao de suas
seqncias monomricas constituintes. Desde
ento, mais de 18 bilhes dessas seqncias j
foram produzidas e esto disponveis nos bancos de dados pblicos.

Roceli P. Lima
Mestrando em Informtica e Especialista
em Bioinformtica
Universidade do Amazonas
rossi@horizon.com.br

Rodrigo Matheus Pereira


Mestrando em Microbiologia e Especialista
em Bioinformtica
Universidade Estadual Paulista
rodrigus@fcav.unesp.br

Slvia Jardim
Mestre em Farmacologia e Especialista em
Bioinformtica
Embrapa Milho e Sorgo
silviajardim@yahoo.com.br

Vanderson de Souza Sampaio


Mestrando em Gentica e Biologia
Molecular e Especialista em
Bioinformtica
Universidade Federal do Par
vander@ufpa.br

urea V. Folgueras-Flatschart
Doutora em Microbiologia e Especialista
em Bioinformtica
Universidade Federal de Minas Gerais
folguera@bol.com.br

Biotecnologia Cincia & Desenvolvimento - n 29

Figura 1: O Dogma Central da


Biologia Molecular
Na segunda metade da dcada de 90, com o
surgimento dos seqenciadores automticos de
DNA, houve uma exploso na quantidade de
seqncias a serem armazenadas, exigindo recursos computacionais cada vez mais eficientes. Alm
do armazenamento ocorria, paralelamente, a necessidade de anlise desses dados, o que tornava
indispensvel a utilizao de plataformas computacionais eficientes para a interpretao dos resultados obtidos.
Assim nascia a bioinformtica. Essa nova cincia envolveria a unio de diversas linhas de conhecimento a engenharia de softwares, a matemtica, a estatstica, a cincia da computao e a
biologia molecular. Os primeiros projetos na rea
eram compostos por profissionais de diferentes

reas da biologia e informtica e


percebia-se uma certa dificuldade
de comunicao: enquanto o bilogo procurava uma soluo que levasse em considerao as incertezas
e erros que ocorrem na prtica, o
cientista da computao procurava
uma soluo eficiente para um problema bem definido. Assim, surgiu a
necessidade de um novo profissional, que entendesse bem ambas as
reas e fizesse a ponte entre elas: o
Bioinformata. Esse profissional deveria ter o conhecimento suficiente
para saber quais eram os problemas
biolgicos reais e quais seriam as
opes viveis de desenvolvimento
e abordagem computacional dos
problemas em questo.
Dado o sucesso e a importncia
que alcanaram os projetos Genoma e seus desmembramentos, o
bioinformata tem sido um profissional requisitado e raro. No exterior,
podem ser encontrados pelo menos
122 cursos de formao em bioinformtica, em sua grande maioria centrados na Amrica do Norte e Europa
(http://linkage. rockefeller. edu/wli/
bioinfocourse/). No Brasil, entretanto, at o incio deste ano, no existiam cursos que formassem tais profissionais especializados. Polticas
cientficas governamentais tm procurado incentivar a formao de grupos de pesquisa e de pessoal nessa
rea, financiando projetos e criando
cursos de ps-graduao. Em 2002,
foi implantado o primeiro Curso de
Especializao (ps-graduao lato
sensu) do LNCC (http://www.
lncc.br/~biologia) - do qual formamos a segunda turma. Ainda neste
ano foi autorizada pela CAPES a
criao de dois cursos de doutorado
em Bioinformtica, um na USP e
outro na UFMG (http://www.
capes.gov.br/).
Parece-nos que cada vez mais a
bioinformtica vai ser necessria para
a anlise de dados em biologia molecular e, nesse sentido, o presente
artigo foi escrito com o intuito de
conter as informaes mais relevantes para quem deseja comear a
trabalhar na rea. Assim, tentamos
apresentar os principais conceitos
relacionados biologia e computao, os softwares mais utilizados, os

sites mais freqentados e as principais


reas de interesse.
Sistemas operacionais
O sistema operacional (SO) o
principal programa de um computador. Ele responsvel pelo gerenciamento da memria, pelo acesso aos
discos e tambm intermedeia todo
acesso aos componentes fsicos da
mquina (hardware).
Os SOs mais conhecidos e utilizados so aqueles baseados no Windows,
Unix e MacOS. Muitas das aplicaes
utilizadas em bioinformtica so compiladas e distribudas para a execuo
em plataformas derivadas do Unix,
portanto o conhecimento desse sistema operacional de grande importncia para aqueles que desejam aprofundar-se na rea. A preferncia por sistemas baseados em Unix deve-se ao fato
de que tais sistemas so normalmente
mais confiveis, gerenciam melhor o
trabalho com grandes quantidades de
dados e que algumas de suas variantes,
como o Linux, possuem cdigo aberto
e distribuies gratuitas.
Linguagens de programao
Um profissional em bioinformtica,
alm de saber utilizar os programas
produzidos por outros programadores,
deve tambm ser capaz de desenvolver programas aplicativos para lidar
com os mais diversos problemas encontrados durante a anlise de dados
em biologia molecular. Para desenvolver, portanto, tais programas, o bioinformata deve ter conhecimento sobre
algum tipo de linguagem de programao.
As Linguagens de programao foram criadas para facilitar a especificao de tarefas a um computador. Existem milhares de linguagens de programao e cada uma delas possui um
conjunto de comandos especficos que
criam esta interface homem-mquina.
Das linguagens de programao mais
utilizadas, podemos citar: basic, pascal,
C, C++, java, cobol e fortran. Entretanto, a linguagem mais utilizada pelos
bioinformatas , sem sombra de dvida, o PERL.
O PERL (Practical Extract and Report Language) uma linguagem de

programao, simples e muito rica,


alm de disponvel gratuitamente. Foi
criada por Larry Wall, originalmente
para produzir relatrios de informaes de erros, que a disponibilizou na
Internet no esprito freeware, pensando que algum pudesse ach-la til. Ao
longo dos anos esta linguagem conquistou milhares de adeptos e, atravs
de vrias colaboraes recebidas para
seu aprimoramento, o PERL hoje
conceituado como uma linguagem
sofisticada, que possui como ponto
forte a manipulao de texto, mas que,
alm disso, possui todas as caractersticas de uma linguagem de alto-nvel
genrica. essa grande facilidade para
a manipulao de texto que fez do
PERL a linguagem mais utilizada no
tratamento de dados de seqncias de
DNA e protenas.
O PERL pode ter suas funcionalidades acrescidas atravs de mdulos,
que so distribudos gratuitamente.
Existem mdulos para uma gama de
aplicaes, desde mtodos estatsticos
clssicos, aplicaes grficas em 3D,
at acesso a internet via programao
PERL. O site CPAN (Comprehensive
Perl Archive Network http://www.
cpan.org) o principal ponto de distribuio de mdulos e de suas respectivas documentaes. Alguns destes
mdulos so especialmente dirigidos
para aplicaes em Bioinformtica,
destacando-se os mdulos bioperl e
biographics,que apresentam ferramentas bastante teis para as mais diversas
aplicaes nesta rea.
Uma boa interconectividade com
bancos de dados outra caracterstica desejada em uma linguagem de
programao. A linguagem PERL
atende muito bem a esta demanda
atravs da biblioteca PERL-DBI, um
conjunto de mdulos que fornece
uma interface consistente para solues de integrao com bancos de
dados.
Bancos de dados
Em conseqncia da grande
quantidade de informaes de seqncias de nucleotdeos e de aminocidos que so produzidas atualmente, principalmente em projetos
Genoma, Transcriptoma e Proteoma,
o uso dos bancos de dados vem as-

Biotecnologia Cincia & Desenvolvimento - n 29

13

sumindo uma importncia crescente


na bioinformtica.
Um banco de dados pode ser
considerado uma coleo de dados
inter-relacionados, projetado para
suprir as necessidades de um grupo
especfico de aplicaes e usurios.
Um banco de dados organiza e estrutura as informaes de modo a
facilitar consultas, atualizaes e delees de dados.
A grande maioria dos bancos de
dados atrelado a um sistema denominado SGBD (Sistema de Gerenciamento de Banco de Dados). Este
sistema responsvel por intermediar os processos de construo, manipulao e administrao do banco de
dados solicitados pelos usurios ou
por outras aplicaes.
Existem vrios sistemas de gerenciamento de banco de dados, sendo
que cada sistema possui seus prs e
contras. O mysql um sistema muito
utilizado pela comunidade acadmica
e em projetos genoma por ser gratuito, possuir cdigo aberto e acesso
veloz aos dados, mas apresenta certas
limitaes em suas ferramentas. O
postgreSQL tambm um SGBD gratuito, com ferramentas muito poderosas, entretanto no muito utilizado
pela dificuldade no seu gerenciamento. Os SGBDs Oracle e SQL Server so
robustos e sofisticados, mas devido ao
alto custo de suas licenas possuem
seu uso limitado s grandes empresas.
Bancos de dados pblicos
em bioinformtica
O investimento contnuo na construo de bancos de dados pblicos
um dos grandes motivos do sucesso
dos projetos genoma e, em especial,
do Projeto genoma Humano. Devido
magnitude do conjunto de dados produzidos torna-se fundamental a organizao desses dados em bancos que
permitam acesso on-line.
Os bancos de dados envolvendo
seqncias de nucleotdeos, de aminocidos ou estruturas de protenas
podem ser classificados em bancos de
seqncias primrios e secundrios.
Os primeiros so formados pela deposio direta de seqncias de nucleotdeos, aminocidos ou estruturas proticas, sem qualquer processamento
14

Biotecnologia Cincia & Desenvolvimento - n 29

BOX1 - Exemplo de programa PERL para obter a fita reversacomplementar a partir de uma seqncia de DNA desejada.
#!/usr/bin/perl
# Seqncia que se deseja utilizar
$meuDNA = TTCCGAGCCAATTGTATCAGTTGCCAATAG;
# Inverte a ordem da seqncia de DNA
$RevCom = reverse $meuDNA;
# Troca as bases produzindo a fita complementar
$RevCom =~ tr/ACGT/TGCA/;
print Minha seqncia invertida : \n $RevCom;
A primeira linha obrigatria e diz ao programa o caminho onde se
encontra o interpretador PERL para que o programa possa ach-lo na hora
de sua execuo. As linhas seguintes que se iniciam com o sinal de #
representam linhas de comentrio. As variveis em PERL so sempre
seguidas do sinal de $ e no precisam ser declaradas, cabe ao
programador saber como e em que contexto devem ser utilizadas. Os
comandos terminam sempre com ponto-e-vrgula e o sinal de =~ est
relacionado utilizao de uma expresso regular.
BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados
MySQL http://www.mysql.org
Acesso livre para download do gerenciador MySQL, como tambm a vrias
ferramentas de conexo como: DBI, Java, ODBC e etc. Apresenta documentao
completa.
PostgreSQL http://www.pgsql.com/
Acesso livre para download do gerenciador PostgreSQL, como tambm
algumas ferramentas. Apresenta documentao completa.
ORACLE http://www.oracle.com
Informaes comerciais sobre o banco de dados.
Microsoft SQL Server http://www.microsoft.com/sql/
Informaes comerciais sobre o banco de dados.
BOX3 - Bancos de Dados mais utilizados em bioinformtica
Genbank http://www.ncbi.nlm.nih.gov/
Banco de dados americano de seqncias de DNA e protenas.
EBI http://www.ebi.ac.uk/
Banco de dados europeu de seqncias de DNA.
DDBJ http://www.ddbj.nig.ac.jp/
Banco de dados japons de seqncias de DNA.
PDB http://www.rcsb.org/pdb
Armazena estruturas tridimensionais resolvidas de protenas.
GDB http://gdbwww.gdb.org/
Banco de dados oficial do projeto genoma humano.
TIGR Databases http://www.tigr.org/tdb/
Banco com informaes de genomas de vrios organismos diferentes.
PIR http://www-nbrf.georgetown.edu/
Banco de protenas anotadas.
SWISS-PROT http://www.expasy.ch/spro/
Armazena seqncias de protenas e suas respectivas caractersticas
moleculares, anotado manualmente por uma equipe de especialistas.
INTERPRO http://www.ebi.ac.uk/interpro/
Banco de dados de famlias, domnios e assinaturas de protenas.
KEGG http://www.genome.ad.jp/kegg/
Banco com dados de seqncias de genomas de vrios organismos diferentes e informaes relacionadas s suas vias metablicas.

ou anlise. Os principais bancos de


dados primrios so o GenBank, o EBI
(European Bioinformatics Institute),
o DDBJ (DNA Data Bank of Japan) e
o PDB (Protein Data Bank). Os trs
primeiros bancos so membros do
INSDC (International Nucleotide Sequence Database Colaboration) e cada
um desses centros possibilita a submisso individual de seqncias de DNA.
Eles trocam informaes entre si diariamente, de modo que todos os trs
possuem informaes atualizadas de
todas as seqncias de DNA depositadas em todo o mundo. Apesar disso,
cada centro apresenta seus dados de
forma particular, apesar de bastante
semelhante. Atualmente a maioria das
revistas exige que as seqncias identificadas pelos laboratrios sejam submetidas a um destes bancos antes
mesmo da publicao do artigo.
Os bancos de dados secundrios,
como o PIR (Protein Information Resource) ou o SWISS-PROT, so aqueles
que derivam dos primrios, ou seja,
foram formados usando as informaes depositadas nos bancos primrios. Por exemplo, o SWISS-PROT um
banco de dados onde as informaes
sobre seqncias de protenas foram
anotadas e associadas informaes
sobre funo, domnios funcionais, protenas homlogas e outros.
Os bancos de seqncias tambm
podem ser classificados como bancos
estruturais ou funcionais. Os bancos
estruturais mantm dados relativos
estrutura de protenas. Embora a seqncia de nucleotdeos, a seqncia
de aminocidos e a estrutura de protena sejam formas diferentes de representar o produto de um dado gene,
esses aspectos apresentam informaes diferentes e so tratados por projetos diferentes, que resultam em bancos especficos.
Dos bancos funcionais, o KEGG
(Kyoto Encyclopedia of Genes and
Genomes) um dos mais utilizados.
Disponibiliza links para mapas metablicos de organismos com genoma
completamente ou parcialmente seqenciados a partir de seqncias e de
busca atravs palavras-chave.
Com o crescente nmero de dados
biolgicos que vem sendo gerados,
vrios bancos de dados tm surgido e
anualmente a revista Nucleic Acids

Research(http://www3.oup.co.uk/nar/
database/) publica uma lista atualizada
com a classificao de todos os bancos
de dados biolgicos disponveis.
Alinhamento de seqncias
O alinhamento de seqncias possui uma diversidade de aplicaes na
bioinformtica, sendo considerada uma
das operaes mais importantes desta
rea. Este mtodo de comparao procura determinar o grau de similaridade
entre duas ou mais seqncias, ou a
similaridade entre fragmentos destas
seqncias. No caso de mais de duas
seqncias o processo denominado
alinhamento mltiplo.
bom lembrar que similaridade e
homologia so conceitos diferentes. O
alinhamento indica o grau de similaridade entre seqncias, j a homologia
uma hiptese de cunho evolutivo, e
no possui gradao: duas seqncias
so homlogas caso derivem de um
ancestral comum ou, caso esta hiptese no se comprove, simplesmente
no so homlogas.
Existem vrios programas de computador que realizam esta tarefa e a
grande maioria deles pode ser utilizado on-line, sem a necessidade de instalao. Como exemplo temos os programas: ClustalW, Multialin, FASTA,
BLAST 2 sequences, etc.

Figura 3. Parte de uma matriz de


substituio BLOSUM62, utilizada
em alinhamentos de seqncias de
protenas. As letras representam os
aminocidos e os nmeros indicam
os pontos a serem contabilizados na
ocorrncia de match (diagonal
principal) ou mismatch

tas matrizes indicam os diferentes valores a serem contabilizados para cada


par de unidades.
As matrizes de substituio so normalmente utilizadas no alinhamento
de seqncias proticas. Assim o valor
de cada uma de suas clulas indica a
chance da ocorrncia da substituio
correspondente ao par de aminocidos deste mismatch.

Figura 2 Alinhamento de duas seqncias de protenas


O processo consiste em introduzir
espaos (gaps) entre os monmeros
de uma ou mais seqncias a fim de
obter o melhor alinhamento possvel.
A qualidade de um alinhamento
determinada pela soma dos pontos
obtidos por cada unidade pareada
(match) menos as penalidades pela
introduo de gaps e posies no
pareadas (mismatch).
Matrizes de substituio
Matrizes de substituio so uma
alternativa aos valores fixos de pontuao para matches e mismatches. Es-

As matrizes de substituio mais


utilizadas so aquelas pertencentes s
famlias de matrizes PAM (Point Accepted Mutation) e BLOSUM. A matriz
PAM1 foi construda atravs da anlise
de mutaes entre protenas homlogas com 1% de divergncia (1% dos
aminocidos diferentes). As outras
matrizes, PAM50, PAM100, PAM250
so extrapolaes da matriz PAM1. As
matrizes BLOSUM foram construdas
tendo como base os alinhamentos do
banco de motivos BLOCKS. Uma matriz BLOSUM62 definida atravs da
anlise das substituies nas seqncias de BLOCKS que possuem menos

Biotecnologia Cincia & Desenvolvimento - n 29

15

que 62% de similaridade. As seqncias que ultrapassam este limite so


mescladas, e participam da definio
da matriz como se fossem uma nica
seqncia.
Alinhamento global e local
Quanto regio analisada, o alinhamento de seqncias pode ser grosseiramente classificado em dois tipos, o
alinhamento global e o alinhamento
local. No alinhamento global, as seqncias envolvidas devem ser alinhadas de um extremo ao outro, dando
origem a apenas um resultado. J no
alinhamento local, procura-se alinhar
apenas as regies mais conservadas,
independente da localizao relativa
de cada regio em sua seqncia. Consequentemente, este alinhamento tem
como resultado uma ou mais regies
conservadas entre as seqncias.
O alinhamento global freqentemente utilizado para determinar regies mais conservadas de seqncias
homlogas. Exemplo de programas
que utilizam este alinhamento so ClustalW e Multialin. O alinhamento local
geralmente utilizado na procura por
seqncias homlogas ou anlogas
(funcionalmente semelhantes) em
banco de dados. O algoritmo utilizado
pelo programa BLAST (Basic Local
Alignment Search Tool) realiza este
tipo de alinhamento.

Figura 4: Exemplos de alinhamento global e local. No alinhamento


global as seqncias so alinhadas do incio ao fim, j no
alinhamento local alinha-se as subseqncias conservadas
Projetos genoma e transcriptoma
Grande parte dos bioinformatas
modernos trabalha com dados de projetos genoma ou transcriptoma. Em
projetos genoma adota-se a abordagem de fragmentar todo o genoma de
um organismo em pequenos pedaos
e de seqenciar tais pedaos, utilizando programas computacionais para
mont-los e reconstituir a informao
genmica inicial. Essa estratgia adotada principalmente devido restrio
do tamanho da seqncia que pode
ser lida nos seqenciadores. Mesmo os
mais modernos conseguem ler apenas
cerca de 1000 pares de base em cada

BOX4 - Softwares mais utilizados para o alinhamento de seqncias


ClustalW http://www.ebi.ac.uk/clustalw/index.html
Verso web de um dos programas de alinhamento mltiplo mais utilizados
(Clustal). Fornece ao usurio uma grande quantidade de parmetros e de
sadas diferentes. Possui interface grfica onde os alinhamentos podem ser
visualizados de forma agradvel e alterados.
Multialin http://prodes.toulouse.inra.fr/multalin/multalin.html
Programa de alinhamento mltiplo bastante conhecido. Fcil e rpido.
Fasta http://www.ebi.ac.uk/fasta33/
Precursor dos programas de alinhamento.
Promove servio de busca em banco de dados de cidos nuclicos e
protenas.
BLAST, BLAST2sequences http://www.ncbi.nlm.nih.gov/BLAST/
BLAST o programa de alinhamento mais utilizado no mundo. Realiza a
busca por seqncias homlogas em banco de dados de cidos nuclicos e
protenas. O programa BLAST 2 sequences consiste no algoritmo BLAST para
alinhamento de duas seqncias.

16

Biotecnologia Cincia & Desenvolvimento - n 29

corrida.
Em projetos genomas de procariotos, normalmente realiza-se a quebra
do DNA inteiro do organismo desejado
em fragmentos pequenos (atravs da
tcnica de shotgun) que so clonados
em vetores plasmidiais que sero seqenciados em suas extremidades.
Aps uma primeira etapa de montagem desse genoma, fragmentos maiores so clonados em cosmdeos e seqenciados. Essa segunda etapa importante para a montagem do genoma
completo do organismo, j que a primeira normalmente produz uma seqncia incompleta, apresentando alguns buracos de seqncia (gaps).
J em projetos genomas de organismos eucariotos, que possuem freqentemente uma enorme quantidade de DNA, normalmente prefere-se
adotar uma tcnica conhecida como
shotgun hierrquico. Nessa tcnica, o
DNA inteiro do organismo primeiramente inserido em grandes vetores de
clonagem, como cromossomos artificiais de bactrias (BACs) ou de leveduras (YACs). Depois ento realizado
um shotgun desses grandes fragmentos dos vetores, gerando fragmentos
menores que so agora clonados em
vetores plasmidiais para o sequenciamento. Portanto, tais projetos consistem de duas etapas, a montagem de
cada um dos grandes fragmentos clonados nos BACs e YACs e a montagem
final que reunir as seqncias completas dos BACs e YACs montados
para a reconstituio da informao
genmica inicial.

Figura 5. a) Na estratgia de shotgun, todo o DNA genmico de um


organismo fragmentado em pequenos pedaos (1), que so clonados
em vetores de pequeno porte, como plasmdeos, para o posterior seqenciamento. b) Na estratgia de shotgun hierrquico, normalmente
utilizada para grandes genomas, realizam-se dois passos. (1) Primeiramente fragmenta-se o genoma em grandes pedaos, que so clonados em vetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se uma segunda etapa de shotgun, onde as seqncias
contidas nesses vetores so fragmentadas em pequenos pedaos e clonadas em vetores de pequeno porte, que sero sequenciados

Muitas vezes, ao invs de ser realizado o seqenciamento genmico de


um organismo eucarioto, prefere-se
realizar o seqenciamento s das regies gnicas, utilizando informaes
oriundas de RNA mensageiro (mRNA).
Dessa forma realizada uma biblioteca
de cDNA, representando o conjunto
de mRNAs de uma clula, que so
clonados em vetores plasmidiais. Os
insertos de cDNA presentes em tais
vetores so ento seqenciados a partir de suas extremidades 5 ou 3,
produzindo pequenas seqncias que
iro representar pedaos dos genes
expressos no momento da extrao do
mRNA da clula em questo. Esses
pedaos seqenciados representam
etiquetas de genes expressos, ou ESTs
(Expressed Sequence Tags) e uma anlise dos genes expressos uma abordagem bastante utilizada na tentativa
de entender o funcionamento do metabolismo dos mais diversos organismos. Como exemplo, no Brasil abordagens transcriptmicas j foram utilizadas em larga escala no projeto da canade-acar e vm sendo utilizados em
organismos parasitas, como o caso
dos projetos de seqenciamento de
ESTs de Schistosoma mansoni em So
Paulo e em Minas Gerais.
Como j foi mencionado anteriormente, normalmente adota-se a estratgia de seqenciamento genmico

em organismos cujo genoma pequeno e que contm baixa quantidade de


seqncias repetitivas. Entretanto, a
estratgia de seqenciamento do transcriptoma, ou a produo de ESTs, no
utilizada apenas quando o genoma do
organismo muito grande. Essa estratgia importante tambm para estudar o
desenvolvimento dos organismos, produzindo bibliotecas de diferentes fases
de desenvolvimento e observando quais
genes so expressos em cada momento. Tal abordagem tambm importante para estudarmos como ocorre a expresso diferencial de genes em diferentes rgos de um mesmo organismo,
para que possamos entender a funo
desses rgos ou como eles realizam
funes conhecidas. Portanto podemos
dizer que as estratgias de seqenciamento de genomas e transcriptomas
so complementares e ambas devem
ser realizadas, quando possvel, para
que possamos obter informaes relevantes sobre os organismos que estamos estudando.
Base calling

ainda um valor de qualidade para cada


posio nucleotdica identificada. Normalmente cada seqenciador apresenta
um programa de base calling associado.
Entretanto, o programa mais utilizado
nessa etapa o PHRED.
O PHRED reconhece dados de seqncias a partir de arquivos SCF (Standard Chomatogram Format), arquivos
de cromatograma dos analisadores automticos de DNA ABI e arquivos MegaBACE ESD. Este software reconhece a seqncia de nucleotdeos a partir do arquivo de dados brutos do seqenciador,
atribui valores de qualidade s bases
constituintes da seqncia nucleotdica e
gera arquivos de sada contendo informaes sobre o base call e os valores de
qualidade. O valor de qualidade das seqncias analisadas pode ser encontrado
nos arquivos FASTA e PHD.
De acordo com Ewing et al (1998) as
atribuies seguras de valores s seqncias nucleotdicas so proporcionadas
pela implantao de um algoritmo que
tem como base os mtodos de Anlise
de Fourier. O algoritmo analisa as quatro
bases e prediz a provvel regio central
dos picos e as distncias relativas entre os
picos da seqncia de DNA. O valor de
qualidade atribudo a cada base obtido
pela frmula a seguir, que calcula a
probabilidade de erro no base call, onde
o Pe a probabilidade de uma base estar
errada.
PHRED Quality = -10 log (Pe)

As pontuaes inseridas nos arquivos


de sada do PHRED representam a probabilidade logartmica negativa em escala de erro de um base call; portanto,
quanto maior o valor de qualidade do
PHRED, menor a probabilidade de ter
ocorrido um erro. S como exemplo, um
valor de PHRED 20 para uma determinada posio nucleotdica significa que ela
apresenta uma chance em 100 de estar
errada. J um valor de PHRED 30 significa que determinada base apresenta
uma chance em 1000 de ter havido um
erro no base calling. Esses valores so
Os dados brutos provenientes do importantes para determinar se uma reseqenciador de DNA so normalmente gio precisa ser resseqenciada.
submetidos diretamente a algum programa de base calling. O base calling
Mascaramento de vetores
consiste no processo de leitura dos dados do seqenciador e identificao da
A estratgia freqentemente adotaseqncia de DNA gerada, atribuindo da aps a realizao do base calling a
Biotecnologia Cincia & Desenvolvimento - n 29

17

procura por regies de contaminantes


na seqncia produzida. Regies contaminantes so partes da seqncia
obtida que no representam o DNA ou
o cDNA que se deseja analisar. Tais
regies representam, normalmente,
partes dos vetores de clonagem onde
as seqncias de interesse foram inseridas ou pedaos de DNA adaptadores
utilizados durante a construo das
bibliotecas. Como essas regies no
representam as seqncias que se
deseja analisar, elas devem ser retiradas ou mascaradas por um programa. E
aqui, o programa mais utilizado o
Cross_match. Esse , na verdade, um
programa para a comparao de duas
seqncias e preciso utilizar como
entrada um arquivo apresentando a
seqncia dos vetores que se deseja
mascarar. O que o Cross_match faz
comparar a seqncia desejada com o
arquivo de seqncias de vetores e,
onde o programa encontrar similaridade entre as seqncias, ele ir mascarar
(acrescentando letras X) a seqncia
de entrada. Assim, os nucleotdeos das
seqncias de entrada similares a regies de vetores de clonagem sero
alterados para X e no atrapalharo os
processos posteriores de anlise computacional.

gem realizada (incluindo valores de


qualidades para a seqncia dos contguos). Em projetos genoma espera-se
obter, na sada do PHRAP, a seqncia
montada do contguo genmico. J em
projetos trancriptoma esperamos obter as seqncias de cada dos genes
expressos aps a execuo deste software de montagem.
A visualizao e edio das seqncias geradas aps a montagem so
realizadas normalmente atravs do
programa Phrapview ou Consed.

O processo de anotao gnica


Uma vez obtidos os dados do
seqenciamento das molculas de DNA
preciso saber o que representa cada
uma das seqncias nucleotdicas produzidas. A anotao consiste simplesmente
no processo de identificao dessas seqncias. Em projetos genoma, este processo normalmente realizado em trs
etapas: anotao de seqncias de
nucleotdeos, de seqncias proticas e
de processos biolgicos.

Agrupamento de seqncias
Aps a gerao de arquivos sem
contaminantes, contendo a identificao das bases e a qualidade, todas essas
informaes so repassadas a um software de montagem como o PHRAP, o
CAP3 ou o TIGR Assembler. O software mais utilizado nessa etapa, o PHRAP
(Phragment Assembly Program) o
programa responsvel pela leitura das
informaes do base call e montagem
dos pequenos fragmentos de DNA
seqenciados em seqncias maiores,
os contguos (contigs). Este programa
possui diversos pontos chaves para a
obteno de resultado final satisfatrio,
como: construo de seqncia do
contguo atravs de um mosaico de
partes das seqncias com alta qualidade; utilizao de informaes da
qualidade dos dados computados internamente e de implementaes feitas pelos usurios para aumentar a
qualidade da montagem; apresenta extensivas informaes sobre a monta18

Biotecnologia Cincia & Desenvolvimento - n 29

Figura 6: Interface do programa Consed


BOX5 - Programas mais utilizados em projetos genoma e transcriptoma
PHRED http://www.phrap.org
Software para a realizao do base calling e a produo do cromatograma
processado.
CROSS-MATCH http://www.phrap.org
Software para a comparao entre duas seqncias de DNA. Normalmente
utilizado para o mascaramento de regies representando vetores em seqncias genmicas ou de cDNA. Distribudo juntamente com o PHRAP.
PHRAP http://www.phrap.org
Software mais utilizado para a realizao do agrupamento de seqncias
(clustering analysis) e montagem de contguos genmicos.
CAP3 http://genome.cs.mtu.edu/cap/cap3.html
Software utilizado para o agrupamento de seqncias e montagem de
contguos genmicos. Utiliza um algoritmo diferente do PHRAP.
CONSED http://www.phrap.org
Software mais utilizado para a visualizao dos resultados obtidos por softwares
de agrupamento de seqncias. Permite a edio das bases seqenciadas, alm
de diversos outros recursos.

Figura 7: Etapas da anotao em projetos genoma e as perguntas que


se deseja responder em cada uma delas
A partir da anotao de seqncias
nucleotdicas procura-se, primeiramente, identificar a natureza de uma determinada seqncia. Devemos descobrir se tal seqncia est inserida em
uma regio gnica, se representa uma
molcula de RNA transportador ou
RNA ribossmico, se pertence a algum
tipo de regio repetitiva j descrita ou
se apresenta algum marcador gentico
conhecido em seu interior. O principal
objetivo dessa etapa construir um
mapa do genoma do organismo, posicionando cada um dos possveis genes
e caracterizando as regies no-gnicas. Nesta fase, alguns programas de
predio gnica so usados para a
localizao de possveis genes nas seqncias de DNA. A procura por elementos como o cdon de iniciao de
protenas (a trinca de nucleotdeos
ATG) e cdons de terminao na mesma fase de leitura so utilizados por
alguns desses programas. O tamanho
delimitado por esta janela de leitura
freqentemente utilizado para definir
uma determinada regio como sendo
gnica ou no. Alguns outros programas so capazes de identificar, dependendo do genoma analisado, regies
gnicas codificadoras (xons) e no
codificadoras (ntrons). Alguns exemplos so o GenomeScan e o GenScan.
Em projetos de trancriptmica, onde
se utiliza a abordagem de seqenciamento de ESTs, essa etapa no
realizada, uma vez que todas as seqncias produzidas se restringem a
regies gnicas.
Mapeados os genes, a etapa seguinte consiste em identificar quais
protenas so codificadas, e nisso consiste o processo de anotao das seqncias proticas. Nessa etapa, procura-se montar um catlogo dos genes
presentes no organismo estudado, dando-lhes nomes e associando-os a provveis funes. No caso de projetos
genoma, deseja-se identificar o nmero total de genes presentes no organis-

mo seqenciado, j que h informao


da seqncia de DNA de todo o genoma. J em projetos transcriptoma, a
tarefa consiste em identificar os genes
expressos no organismo em uma determinada condio. Apesar de no ser
capaz de identificar todos os genes de
um determinado organismo, os projetos
de transcriptmica podem permitir a
identificao de genes expressos em
diferentes tecidos e fases de desenvolvimento, alm de permitir a observao
daqueles que apresentam variantes de
splicing. Portanto, nessa etapa da anotao, o principal objetivo identificar e
caracterizar cada uma das protenas codificadas pelos mRNAs presentes no
organismo estudado em determinada
condio.
A parte mais interessante e desafiadora dos processos de anotao gnica
relacionar, finalmente, a genmica
com os processos biolgicos, e essa a
etapa de anotao dos processos biol-

gicos. Essa etapa comum a projetos


genoma e transcriptoma. Identificados
os genes, devemos agora tentar relacion-los de modo a obtermos um mapa
funcional do organismo estudado. Nesse ponto deve-se identificar quais vias
bioqumicas esto completas ou incompletas no organismo e quais vias
alternativas ele possui. Aqui fundamental a participao de bilogos especialistas em diversas reas para que
se possa descobrir como o metabolismo do organismo pode influenciar seu
modo de vida e seu comportamento.
Esse o momento onde possvel
levantar vrias hipteses que relacionem o funcionamento dos organismos
com seus dados genmicos. Tais hipteses devem ser testadas experimentalmente, por pesquisadores que trabalhem com o organismo estudado.
Como realizada a anotao
At aqui foi mostrado o que
normalmente feito em um processo
de anotao gnica. Vejamos agora
como tal processo realizado. Lincoln
Stein definiu muito bem como acontece a sociologia dos projetos de anotao gnica. Ele dividiu o processo de
anotao de genomas em trs etapas:
a fbrica, o museu e a festa.

BOX6 Principais softwares utilizados durante a anotao gnica


Repeat Masker http://repeatmasker.genome.washington.edu/
Utilizado para a identificao e o mascaramento de regies repetitivas
freqentemente encontradas em genomas.
Genscan http://genes.mit.edu/GENSCAN.html
Utilizado para a predio de genes em genomas eucariticos. Seu mtodo de
predio baseado em cadeias escondidas de Markov.
tRNAscan-SE http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
Utilizado para encontrar genes de tRNA em uma seqncia genmica.
BLAST http://www.ncbi.nlm.nih.gov/BLAST
Utilizado para encontrar similaridades entre seqncias de nucleotdeos e
protenas contra bancos de dados com grande nmero de seqncias dos
mais diversos organismos. um dos principais programas utilizados na
identificao dos genes.
Interpro http://www.ebi.ac.uk/interpro
Utilizado para realizar buscas contra diferentes bancos de dados de domnios
e famlias de protenas. Integra os servios do Pfam, PRINTS, ProDom,
PROSITE, SMART, TIGRFAMs e SWISS-PROT.
GeneOntology http://www.geneontology.org
Consrcio destinado a produzir um vocabulrio comum a ser aplicado para a
classificao dos genes presentes em organismos eucariticos. Cada gene
classificado em trs nveis: funo molecular, processos celulares e
localizao celular.
Biotecnologia Cincia & Desenvolvimento - n 29

19

Na primeira etapa trabalham apenas as ferramentas de bioinformtica,


funcionando em larga escala, como
uma fbrica. Assim, as seqncias obtidas passam por uma grande diversidade de programas, que devem ajudar os
anotadores a identific-las e agrup-las
para a prxima fase.
A segunda etapa necessita de especialistas que observem os dados
obtidos na primeira etapa pelas ferramentas automticas e que, como curadores de um museu, identifiquem as
seqncias de acordo com critrios
pr-definidos.
Aps a identificao dos genes,
feita a anotao dos processos. Nesse
momento deve-se promover a interao entre vrios anotadores, bioinformatas e bilogos especialistas em diferentes reas e no organismo estudado.
Nessa festa deve-se discutir como as
informaes obtidas nas etapas anteriores podem estar relacionadas com a
biologia do organismo em questo.
A era ps-genmica
Uma das caractersticas mais fascinantes da exploso, ocorrida nos ltimos 10 anos, de projetos e consrcios
destinados a compor o genoma completo dos mais diversos organismos, foi
o estabelecimento de abordagens e
tecnologias que permitiram um estilo
linha-de-montagem na obteno, em
tempos cada vez mais curtos, de quantidades industriais de seqncias de
cidos nucleicos (DNA e RNA). Agora
comeamos a enfrentar o problema de
interpretar e adicionar significado a
essas seqncias. Temos agora que, a
partir dos bancos de dados existentes,
processar e correlacionar os dados brutos transformando-os em informao e
a partir desta informao gerar conhecimento, que a informao testada
experimentalmente. No final, esta nova
etapa promete ser uma jornada, provavelmente sem fim, atravs das protenas, suas estruturas e funes, vias
metablicas e interaes celulares. Esta
mudana do foco de ateno, dos cidos nucleicos para as protenas, tem
sido utilizada para batizar esta nova
etapa da pesquisa biolgica em larga
escala como Era Ps-Genmica. Contudo, trata-se apenas de mais uma
etapa e, certamente, no a ltima para
20

que os frutos dos programas de seqenciamento de genomas possam


ser colhidos. Etapas estas que foram
previstas pelo Projeto do Genoma
Humano. Das cinco metas a serem
atingidas, o estudo da expresso de
protenas e a obteno de mapas de
interao protena-protena ocupam o
segundo e terceiro estgios, dos quais
se espera o maior impacto econmico,
levando descoberta de novas drogas
e reduzindo o seu tempo de entrada
no mercado.
Resumidamente, na Era Ps-Genmica procura-se estudar a expresso
dos genes codificados pelo genoma
dos organismos, tecidos, clulas ou
compartimentos celulares em determinadas condies fisiolgicas (por
exemplo, uma doena, uma situao
de estresse ou ainda a administrao
de uma droga). Tentando entender a
resposta a essas condies, so alvos
de estudos: a ativao ou represso de
determinados genes, a induo de
mudanas no estado ps-traducional
das protenas e qualquer processo que
resulte na modificao do nmero e/
ou da composio das protenas existentes.
Anlise da Expresso Gnica
Lembrando do dogma central da
biologia (DNA mRNA Protena),
facil perceber que podemos avaliar a
expresso gnica atravs da anlise de
transcritos (mRNA).
Em organismos eucariotos, a facilidade de isolamento dos mRNAs (usando oligonucleotdeos poli-T para capturar os mRNAs pela cauda poli-A), a
possibilidade da transcrio reversa do
mRNA para cDNA (usando a tcnica
de RT-PCR) e o domnio das tcnicas
de seqenciamento em massa de cDNAs tornaram possvel a anlise qualitativa e quantitativa, em larga escala,
dos genes transcritos em organismos,
tecidos e clulas. Desta forma, nos
projetos Transcriptoma, como j comentado, feito o seqenciamento
parcial de cDNAs representativos da
populao de mRNA de maneira a
permitir a identificao de diferentes
transcritos (pela comparao das seqncias do cDNA) e sua abundncia
na populao (pelo nmero de vezes
em que cada transcrito seqencia-

Biotecnologia Cincia & Desenvolvimento - n 29

do). As tcnicas mais usadas so as de


ESTs e SAGE (Serial Analysis of Gene
Expression). Nesta ltima tcnica, mais
recente, so gerados e seqenciados
concatmeros de fragmentos de cDNAs com apenas 10 ou 17 nucleotdeos de cada mensageiro, respectivamente denominados SAGE tags e SAGE
long tags.
DNA chips e Microarrays
Uma outra forma de anlise de
transcritos, que permite a busca de
transcritos de genes especficos na
populao dos mRNAs expressos, usa
o j conhecido princpio da hibridao
de DNA a sondas moleculares. As mais
novas verses da tcnica so os DNA
chips e os microarrays, que permitem
a anlise simultnea da expresso de
milhares de genes. Nestas duas tcnicas, respectivamente, oligonucleotdeos ou fragmentos de cDNA conhecidos
so ligados a uma lmina de vidro e,
em cada experimento de hibridao,
os mRNAs de dois tipos celulares diferentes ou de clulas em duas condies patolgicas ou tratamentos so
analisados. As duas populaes de
mRNAs so amplificadas e marcadas
com diferentes corantes fluorescentes
(cianinas ou Cys), um verde e outro
vermelho. Ao hibridarem com cada
gene (oligo ou cDNA) aplicado sobre
a lmina de vidro, a cor verde ou
vermelha de cada ponto (ou spot)
indicar que esse gene est sendo mais
transcrito em um tipo ou condio
celular do que no outro. A cor amarela
indicar que o gene transcrito igualmente em ambos os tipos ou condies celulares. Alm disso, a maior ou
menor intensidade de cada cor indicar
maior ou menor nvel de expresso do
gene.
A enorme quantidade de dados
gerada nos experimentos de DNA chips
e microarrays so analisados por softwares especficos que envolvem
mtodos de inferncia estatstica. Uma
etapa bastante importante na fase de
anlise dos resultados a que chamamos de normalizao. Usando como
referncia os spots de genes controles
(sabidamente expressos ou reprimidos nos tecidos ou clulas estudados),
o que se busca , basicamente, retirar
dos valores de cada spot a influncia de

manchas esprias (background) e de


variaes do processo de hibridao.
Desta forma, aps a normalizao, torna-se possvel a comparao de spots
de uma mesma lmina ou de experimentos diferentes. Em uma etapa posterior, programas de clustering procuram identificar e agrupar os spots super-expressos, reprimidos ou que no
tem expresso alterada nos tecidos ou
clulas analisadas. Apesar dos mtodos
de anlise empregados, a falta de reprodutibilidade dos resultados ainda
uma queixa bastante comum. O uso de
maior nmero de rplicas de cada spot
e/ou a busca de mtodos de inferncia
estatstica mais adequados parecem
ser teis para a validao destes resultados.
Mais recentemente, com novas tcnicas para isolamento de mRNA de
procariotos, projetos de ESTs e de
microarray tambm tm sido desenvolvidos para estes organismos. Vrios
grupos de pesquisa em todo o Brasil
esto iniciando projetos nesta rea.
Apenas como exemplo, entre os vrios projetos brasileiros nesta rea temos
o projeto Cooperation for Analysis of
Gene Expression (CAGE) (http://
bioinfo.iq.usp.br/ e http://www.vision.
ime.usp.br/~cage/) e o Projeto Genoma Razes da Embrapa Soja (http://
www.cnpab.embrapa.br/pesquisas/
gp.html).
Projetos Proteoma
Um problema que surge com a
abordagem descrita acima, de avaliao da expresso gnica a partir da
anlise dos mRNAs transcritos, que
nem sempre a quantidade de um mRNA
reflete a quantidade da protena correspondente expressa na clula e, assim, no podemos relacionar diretamente essa protena a uma funo nas
clulas. Por isto, uma outra abordagem,
embora muito mais trabalhosa, tem
sido usada para avaliar a expresso
gnica: a anlise das protenas expressas. Esta contrapartida protica do
genoma conhecida como proteoma.
Por permitir relacionar diretamente a
uma protena determinada funo, esta
abordagem constitui um instrumento
particularmente poderoso para elucidar os mecanismos celulares relaciona-

BOX7 Exemplos de Projetos Transcriptoma:


Procuram avaliar quais so os genes expressos, e quanto deles expresso,
a partir do seqenciamento parcial dos mRNAs transcritos.
Dados obtidos pela tcnica de SAGE podem ser consultados na pgina http:/
/www.ncbi.nlm.nih.gov/SAGE/. J no banco dbEST esto depositadas ESTs
de diversos Projetos Transcriptoma desenvolvidos em todo o mundo (http:/
/www.ncbi.nlm.nih.gov/dbEST/).
Mais informaes sobre DNA Chips e Microarrays
Nestas tcnicas, a verificao da expresso de genes especficos feita em
experimentos de hibridao em lminas de vidro contendo milhares de
fragmentos de DNA.
Na pgina http://cmgm.stanford.edu/pbrown/, do pioneiro da tcnica de
microarray, Dr. Patrick Brown, h mais explicaes, um forum de discusso
e bancos de dados de microarrays. Na pgina http://ihome.cuhk.edu.hk/
~b400559/array.html h informaes sobre os equipamentes necessrios,
uma tabela de comparao dos programas de anlise mais usados, noes de
estatstica aplicadas a microarrays, sugestes de bibliografia, etc.
Programa gratuto para anlise de microarrays
ScanAlyse: escrito por Michael Eisen, o programa pode ser obtido gratuitamente na pgina http://rana.lbl.gov/EisenSoftware.htm. Assinando um termo de compromisso, o autor permite, inclusive, o acesso ao cdigo-fonte.

dos ao desenvolvimento de doenas,


ao mecanismo de funcionamento de
compostos qumicos (por exemplo,
frmacos) e identificar novos alvos
terapeuticos.
As bases experimentais da protemica no so novas e pertencem ao
arsenal clssico da bioqumica, mas
houve, nos ltimos anos, um salto
qualitativo e quantitativo sem precedentes. Esse salto foi resultado de grandes investimentos privados na busca
de abordagens mais agressivas e rpidas no isolamento, identificao e caracterizao de protenas, no mesmo
estilo industrial que caracterizou a
era genmica. O isolamento de protenas em grande nmero, inicialmente
repousava nas tcnicas eletroforticas,
como a eletroforese mono e bi-dimensional em gis de poliacrilamida. Embora tais tcnicas certamente sempre
venham a ter um papel importante em
qualquer laboratrio de protemica,
nota-se hoje uma tendncia cada vez
maior no uso da cromatografia lquida
de alta eficincia, com o uso de colunas
capilares, no desempenho desta tarefa. A identificao e caracterizao das
protenas depende de um conjunto de
tecnologias (com certeza as que mais

sofreram incremento no desempenho)


envolvendo a espectrometria de massa, a ressonncia magntica nuclear,
alm de recursos computacionais para
a armazenagem, anlise e compartilhamento dos diversos tipos de dados
gerados por estas tecnologias (imagens
de gis bidimensionais, sequncias proticas, estruturas proticas, espectros
de massa, etc.).
Nos ltimos anos a espectrometria
de massa, em conjunto com a cromatografia lquida de alta performance, vem
se tornando a abordagem preferida
para identificar e caracterizar protenas,
devido essencialmente a trs motivos.
O primeiro o desenvolvimento de
novos mtodos para ionizao de protenas e peptdeos, especialmente o
MALDI e o ESI (Matrix-Assisted Laser
Dessorption-Ionization e ElectroSpray
Ionization). O segundo o desenvolvimento de recursos da bioinformtica,
permitindo a anlise de dados obtidos
por espectrometria de massas em bancos genmicos e de sequncias proticas. E o terceiro que a espectrometria
de massas fornece informao detalhada de modificaes ps-traducionais,
em particular as fosforilaes e glicosilaes.

Biotecnologia Cincia & Desenvolvimento - n 29

21

BOX8 MALDI e ESI

Modelagem molecular

MALDI - Matrix-Assisted Laser Desorption-Ionization


Uma amostra de protena ou peptdeo misturada com um largo excesso de
uma matriz, formada por uma substncia que absorve no ultra-violeta, e posta
para secar. Um laser com um comprimento de onda que seja absorvido pela
matriz, em um compartimento sob vcuo, incide sobre a amostra seca e
fragmentos ionizados da amostra so carreados pela vaporizao da matriz e
capturados por um campo eltrico do analisador de massas.
ESI - ElectroSpray Ionization
Um voltagem aplicada em uma fina agulha contendo uma soluo protica,
gera uma nvoa de pequenas gotculas da soluo, contendo pequeno
nmero de molculas proticas. A reduo das gotculas por evaporao
acaba colocando em fase gasosa as protenas ionizadas. Elas so ento
capturadas pelo analisador de massas. A grande vantagem desta tcnica
permitir o acoplamento direto de um sistema cromatogrfico de alta eficincia
ao espectrmetro de massas, possibilitando a anlise em fluxo contnuo de
misturas proticas complexas.

No Brasil, apenas agora comeamos a montar grupos de pesquisa


nesta rea. Merecem destaque as redes de protemica em So Paulo, sediada no Laboratrio Nacional de Luz
Sncrotron (http://www.lnls.br/), e no
Rio de Janeiro (http://www.faperj.br/
interna. phtml?obj_id=219).

mero de protenas codificadas pelo


genoma da espcie humana (o que
ainda hoje discutido), previsvel
que em alguns anos possamos conhecer de 4000 a 10000 protenasalvo, sobre as quais medicamentos
podero agir. Para termos uma idia
da grandeza destes nmeros, todo o

BOX9 - Links interessantes


Eletroforese bi-dimensional em gis de poliacrilamida (PAGE-2D)
http://us.expasy.org/ch2d/protocols/
http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.html
Cromatografia lquida de alta eficincia, com o uso de colunas
capilares (HPLC)
http://www.ionsource.com/tutorial/chromatography/rphplc.htm
http://www.ionsource.com/tutorial/capillary/introduction.htm
Espectrometria de Massas (MS)
http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htm
Software gratuto para anlise de PAGE-2D - Melanie
Desenvolvido no Swiss Prot, est disponvel diretamente na pgina do Swiss
Prot, http://www.expasy.org/ ou num link na pgina http://
www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que d
acesso a muitos outros programas de bioinformtica.

As tcnicas experimentais expostas acima, alm de oferecerem respostas curiosidade humana, constituem
formas inovadoras na pesquisa para o
combate de problemas globais como
diabetes, cncer, hemofilia, etc... Na
prtica, independentemente do n22

arsenal teraputico que conhecemos


hoje atua sobre apenas 500 delas. O
nmero de drogas disponveis hoje
nos EUA, derivadas destas novas tecnologias, chegou a 103 no ano passado (21 delas foram aprovadas em
2000).

Biotecnologia Cincia & Desenvolvimento - n 29

Ainda neste sentido, procurando


associar protenas a suas funes, a
bioinformtica pode e dever trazer,
nas prximas dcadas, suas maiores
contribuies biologia. O conhecimento da estrutura terciria de uma
protena constitui uma informao
valiosa para determinao de sua
funo, pois pode permitir a identificao de domnios conhecidos, como
stios catalticos, stios de modificao alostrica e outros.
Alm disso, tendo as estruturas
tridimensionais das protenas determinadas, podemos ento realizar
pesquisas mais direcionadas no sentido de encontrar inibidores, ativadores enzimticos e outros ligantes que
permitam a produo de frmacos
mais eficientes e especficos: o almejado Desenvolvimento Racional de
Frmacos (Rational Drug Design).
Atualmente a abordagem mais
eficaz na determinaro da estrutura
terciria de protenas aquela que se
utiliza de tcnicas experimentais
como NMR (Ressonncia Magntica
Nuclear) e cristalografia por difrao
de raios-X. Dezenas de milhares de
protinas tiveram suas estruturas tercirias conhecidas atravs destes mtodos e tm fornecido dados para o
desenvolvimento de programas de
modelagem e para a modelagem
por homologia. Entretanto os mtodos experimentais so, frequentemente, procedimentos dispendiosos
e de difcil execuo. Alm disso,
existem limitaes tcnicas que dificultam a determinao de vrias protenas. A obteno de cada protena
pura um desses fatores limitantes.
Outro fator a dificuldade de cristalizao das protenas, etapa necessria para a determinao de estrutura
por difrao de raios-X. Este um
problema comum em protenas de
membrana ou glicosiladas. Mesmo
usando robs para acelerar o processo experimental, estas e outras dificuldades fazem com que a determinao de novas estruturas proticas
no consiga acompanhar a velocidade de obteno de dados dos projetos genoma.

Figura 8: Estrutura terciria e


quaternria da Deoxihemoglobina humana obtida
por Difrao de Raios X e
depositada no PDB. A
molcula um tetrmero,
composta por 4 cadeias, e
ligada a 4 tomos de ferro
A modelagem molecular um
mtodo alternativo, no experimental,
que permite, com base nos conhecimentos da estereoqumica dos aminocidos e nas informaoes adquiridas
das estruturas tercirias j resolvidas,
prever a conformao de protenas a
partir da seqncia primria dos aminocidos.
Uma das formas de se realizar a
modelagem de protenas utilizar
como referncia uma ou mais protinas homlogas e de estrutura terciria
j conhecida. Este tipo de modelagem
conhecido como modelagem por
homologia ou modelagem comparativa, e, por enquanto, a abordagem
que obtm melhores resultados. O
primeiro passo do processo a pequisa de protenas homlogas em bancos
de dados de estruturas tercirias de
protenas. O PDB (Protein Database
Bank) o mais utilizado para este fim.
A seguir, deve ser realizado o alinhamento das seqncias de aminocidos
das protinas homlogas e a protenaalvo (o programa Clustal, citado anteriormente no artigo, pode ser usado). A
modelagem, propriamente dita, realizada atravs de softwares como o
Modeller, SWISS-MODEL, 3D-PSSM,
dentre outros. Esses programas normalmente procuram encontrar a estrutura terciria que melhor se aproxime
da disposio dos tomos das protenas utilizadas como modelo, e ao mesmo tempo atenda s restries este-

reoqumicas. Aps a definio de uma


estrutura candidada, esta pode ser avaliada atravs de outros softwares de
verificao de restries estereoqumicas, como o programa Procheck.
A modelagem por homologia um
processo iterativo de ajuste de parmetros e verificao dos resultados.
Normalmente necessrio que o processo seja repetido vrias vezes at
que uma estrutura terciria adequada
seja obtida. Alm disso, a modelagem
de protenas, como um todo, uma
tcnica heurstica: mesmo que a estrutura obtida concorde perfeitamente
com todas as restries impostas, no
h garantias de que esteja correta.
Deve-se lembrar que uma estrutura
bastante semelhante real pode ser o
suficiente para formulao de novas
hipteses e atingir as expectativas do
usurio desta tcnica.
Uma abordagem recente, que possui um crescente nmeros de adeptos
e acumula bons resultados, a modelagem atravs de threading de protena. Esta tcnica baseada na comparao da protena em questo com
modelos descritivos dos enovelamentos de protenas homlogas. Nesses
modelos so descritas: a distncia entre

os resduos de aminocidos, a estrutura


secundria de cada fragmento e as
caractersticas fisico-qumicas de cada
resduo.
Entretanto, um grande desejo dos
que trabalham com protenas o desenvolvimento de programas realmente eficientes para a modelagem ab
initio, ou seja, que sejam capazes de
predizer a estrutura terciria de uma
protena, tendo como informao apenas a seqncia dos resduos de aminocidos e suas interaes fisico-qumicas, entre si e com o meio. Programas
assim existem hoje mas tm muito a
melhorar para que possamos confiar
unicamente no seu resultado.
No geral, a modelagem de protenas atravs de programas de computador um campo de pesquisa recente
e ainda no gerou softwares de eficincia comprovada. Para estimular o desenvolvimento de programas de molelagem molecular de protenas, foi
criado um evento para a avaliao
desses softwares denominado CASP
(Critical Assesment of Structural Prediction). A cada dois anos este evento
rene os mais conhecidos pesquisadores desta rea, que so desafiados e
suas diferentes metodologias avalia-

BOX10 Programas e sites relacionados com modelagem e estruturas de protenas


PDB http://www.rcsb.org/pdb/
Mais famoso e completo banco de dados de estrutura de protenas.
Protein explorer http://molvis.sdsc.edu/protexpl/
Programa derivado do RasMol para a visualizao de estruturas de protenas.
SWISS-PDBviewer http://www.expasy.org/spdbv/
Programa para a visualizao e anlise da estrutura de vrias protenas ao
mesmo tempo. Permite a realizao de mutaes de aminocidos, alteraes em pontes de hidrognio, ngulos de toro e distncias entre tomos.
Modeller http://guitar.rockefeller.edu/modeller
Um dos programas mais utilizados para a modelagem de protenas por
homologia.
SWISS-MODEL http://www.expasy.org/swissmod
Programa via web para a modelagem de protenas por homologia.
PROCHECKhttp://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html
Programa que checa a qualidade estereoqumica de uma estrutura de protena, gerando anlises grficas sobre a geometria espacial da protena, resduo por resduo.
Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html
Programa on-line que utiliza threading para encontrar uma seqncia de
resduos de aminocidos que melhor se adequem a uma estrutura terciria
conhecida e vice-versa.
CASP http://predictioncenter.llnl.gov/Center.html
Critical Assesment of Structural Prediction. Competio que avalia os
softwares de predio de estrutura de protenas.
Biotecnologia Cincia & Desenvolvimento - n 29

23

das. Nesta competio cada grupo recebe seqncias de protenas tiveram


sua estrutura resolvida experimentalmente por NMR e/ou cristalografia por
difrao de raios X, mas que ainda no
foram publicadas. Vence o grupo que
conseguir prever ab initio, com maior
exatido, a estrutura do maior nmero
protenas. Apesar dos esforos, at
hoje no houve 100% de acerto.
Mtodos em
filogentica molecular
Uma das aplicaes mais antigas da
bioinformtica a de desenvolvimento de programas que, a partir das
seqncias de DNA ou de protenas de
diferentes organismos, sejam capazes
de reconstruir a relao de parentesco
entre as espcies, o que chamamos de
sistemtica molecular, ou de reconstruir o parentesco entre as espcies
associando essas informaes a uma
escala temporal, o que chamamos de
filogenia molecular. A representao
grfica desses resultados feita na
forma de rvores filogenticas.
Atualmente, rvores filogenticas
so extremamente comuns em artigos
que abordam assuntos de biologia
molecular, refletindo o reconhecimento de que estas rvores representam
uma maneira legtima de entender os
processos biolgicos e a evoluo dos
mais diversos caracteres. Estes estudos
e as ferramentas criadas para este fim
tm aplicaes to diversas como procurar entender a origem do homem ou
reconstituir a histria epidemiolgica
da AIDS a partir de dados do genoma
do vrus HIV.
Para realizar inferncias a respeito
das relaes de parentesco entre organismos, tomando como base seqncias de DNA ou protenas, o primeiro
passo identificar seqncias de interesse que apresentem ancestralidade
comum, ou seja, que sejam homlogas. Para isto, muitas vezes estas seqncias so escolhidas por similaridade nos grandes bancos de dados disponveis na rede, sem que tenhamos,
sobre elas, dados das funes bioqumicas e biolgicas que possam confirmar sua homologia. Por isso, importante ressaltar que, ao fazermos uma
reconstruo filogentica, a escolha de
seqncias homlogas fundamental
para gerar uma rvore confivel, pois
s assim teremos certeza de que esta24

remos comparando um mesmo marcador que apresenta similaridades entre


vrios organismos a partir de uma origem comum, garantindo que eles compartilham um mesmo ancestral. Quando
no se comparam caracteres homlogos, pode-se incidir no erro de considerar similaridades sem origem comum e,
portanto, com histrias evolutivas diferentes. Uma das formas de avaliar esta
escolha incluir nas anlises, seqncias
de grupos externos (organismos com
historia evolutiva conhecida em relao
ao grupo em estudo), que funcionam
como controles no processo de reconstruo de parentescos.
Uma vez selecionadas as seqncias
homlogas dos organismos de interesse
e de grupos externos, ser necessrio
realizar o alinhamento mltiplo entre
elas e ento gerar rvores filogenticas
a partir de mtodos de distncia ou de
caracteres discretos (mxima parcimnia ou mxima verossimilhana) para
podermos realizar a inferncia filogentica desejada. Para tanto, os seguintes
mtodos so freqentemente utilizados
pelos softwares:
Mtodos de Distncia
Funcionam basicamente em dois
passos, sendo que o primeiro deles a
reduo das variaes entre seqncias
alinhadas a valores de distncia dispostos em uma matriz. No segundo passo,
estes valores so utilizados na reconstruo filogentica. Um dos mtodos de
distncia mais comuns a chamada
distncia p, que expressa o nmero de
stios variveis entre duas seqncias
com relao ao total de stios comparados. Alm deste, existem tambm muitos outros modelos evolutivos utilizados
para o clculo de distncias genticas,
como o Jukes-Cantor, Kimura 2 parmetros, Tajima e Nei e Tamura 3 parmetros. Na reconstruo filogentica, os
algoritmos mais utilizados so o UPGMA
(Unweighted Pair Group Method with
Arithmetic means) e o Neighbor-joining, que realizam uma srie de clculos
com a matriz de distncia gerada a partir
do alinhamento para estimar a rvore
filogentica.
Mxima Parsimnia (MP)
Este mtodo baseia-se na teoria de
que a melhor hiptese para explicar um
processo aquela que requer o menor

Biotecnologia Cincia & Desenvolvimento - n 29

nmero de passos. Para a anlise filogentica, isto significa que a rvore que
possuir um menor nmero de mudanas
(substituies) para explicar os dados do
alinhamento a mais prxima da real.
Na MP no h a fase de clculo de
distncia, sendo que as rvores so calculadas diretamente dos dados do alinhamento. Entretanto, esta metodologia
requer muito mais tempo quando se usa
a busca exaustiva de rvores, uma vez
que o computador precisa reconstruir
todas as rvores possveis para escolher aquelas com um nmero mnimo
de mudanas, que so chamadas de
rvores mais parcimoniosas. Para contornar este problema do tempo, existem
tambm algoritmos heursticos de reconstruo filogentica, mas preciso
lembrar que, nestes casos, a rvore final
pode ser subtima.
Mxima Verossimilhana (MV)
Este mtodo baseia-se na reconstruo filogentica atravs da busca por
uma rvore que maximize a probabilidade dos dados observados. Neste sentido,
o mtodo de MV calcula as probabilidades associadas a diferentes topologias e
cada uma delas com as variaes nos
tamanhos dos ramos, considerando o
modelo evolutivo escolhido. Portanto,
encontrar a rvore mais verossmil envolve no somente a anlise das topologias possveis, mas tambm das variaes de comprimento de ramos para
cada topologia. Deste modo, o emprego
de algoritmos heursticos pode auxiliar
enormemente na busca pela rvore ideal, j que o tempo computacional aumenta de acordo com o nmero de
espcies e de parmetros considerados
na anlise.
A cada vez que um programa de
filogenia molecular rodado para gerar
uma rvore sobre o conjunto de dados
escolhidos, o resultado pode ser diferente. Por isso, para validar uma rvore
filogentica, o que se faz rodar repetidas vezes o programa escolhido e, estatisticamente, testar cada ramo para escolher um a um aqueles com maior probabilidade de ocorrncia para a composio final da rvore. O mtodo estatstico
mais usado nessas anlises o chamado
bootstrap.
O bootstrap funciona gerando conjuntos modificados de dados, obtidos
aleatoriamente a partir dos dados do
alinhamento. Para cada conjunto aleat-

BOX11 - Programas mais utilizados na anlise filogentica


Clustal
Programa para o alinhamento mltiplo de seqncias
Acesso on line - http://www.ebi.ac.uk/clustalw/
Download do clustal X para diversas plataformas - http://innprot.weizmann.ac.il/software/ClustalX.html
PAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) http://paup.csit.fsu.edu/
Anlises filogenticas utilizando mtodos de distncia, mxima parcimnia
e mxima verossimilhana
PHYLIP (Phylogeny Inference Package) inferncias filogenticas
http://evolution.genetics.washington.edu/phylip.html
MEGA (Molecular Evolutionary Genome Analysis) - http://
www.megasoftware.net/
Inferncias filogenticas com mtodos de distncia e parcimnia.
Download gratuito.
Treeview http://taxonomy.zoology.gla.ac.uk/rod/treeview
Software gratuito para edio grfica e impresso de rvores filogenticas

rio de dados obtidos estimada uma


rvore. As novas rvores, geradas a
partir dos conjuntos modificados dos
dados de entrada, so comparadas.
Cada um dos ramos da rvore final
recebe ento um valor de probabilidade, que obtido do nmero de novas
rvores onde esse ramo ocorreu dividido pelo nmero total de novas rvores
estimadas. Probabilidades altas indicam que, mesmo com algumas alteraes, os dados suportam o ramo ao
qual essa probabilidade se refere e
probabilidades baixas significam que,
com a amostra analisada, no se pode
ter certeza de que determinado ramo
seja correto.
CONSIDERAES FINAIS
Tentamos abordar nesse artigo os
principais tpicos desenvolvidos em
bioinformtica. Este artigo no pretende esgotar cada um dos assuntos abordados, mas imaginamos que os leitores
interessados podero encontrar mais
informaes e trilhar seu prprio caminho visitando os links e observando as
referncias sugeridas.
Agradecimentos
Sendo este trabalho fruto do aprendizado obtido no II Curso de Especializao em Bioinformtica, realizado
de agosto a novembro de 2002 em
Petrpolis - RJ, os autores gostariam de
agradecer principalmente ao CNPq

pelo suporte financeiro concedido para


a realizao do curso e ao LNCC (Laboratrio Nacional de Computao Cientfica) por sediar este evento, em especial coordenadora do curso, Ana
Tereza Vasconcelos. Agradecemos tambm a todos os nossos professores:
Darcy de Almeida, Richard Garratt,
Glaucius Oliva, Patricia Palagi, Marie
Anne Van Sluys, Cludia Russo, Anamaria Camargo, Helena Brentani, Sandro de Souza, Jorge de Souza, Luiz
Gonzaga, Frank Alarcon, Fernanda
Raupp, Daniele Quintella, Helio Barbosa, Alexandre Plastino, Dorival Leo,
Marcos Grivet, Simone Martins e a todo
o pessoal do Laboratrio de Bioinformtica do LNCC.
Agradecemos tambm a nossos
orientadores e s instituies e rgos
de financiamento nacionais e estaduais
pelo apoio dado a cada um de ns para
a participao no Curso de Especializao em Bioinformtica do LNCC.
REFERNCIAS BIBLIOGRFICAS
1. Altschul SF et al. Gapped BLAST
and PSI-BLAST: a new generation of protein database search
programs. Nucleic Acids Res 25:
3389-3402. 1997.
2. Baxevanis AD, Ouellette BFF. Bioinformatics: A practical guide
to the analysis of genes and
proteins. Ed. Wiley-interscience.
2nd ed. 2001. 470p.
3. Clote P, Backofen R. Computatio-

nal Molecular Biology: An introduction. John Wiley & Sons,


LTD. 2000. 286p.
4. Ewing B, Green P. Base-calling of
automated sequencer traces
using phred. II. Error probabilities. Genome Res 8:186-94. 1998.
5. Frishman D et al. Comprehensive,
comprehensible, distributed
and intelligent databases: current status. Bioinformatics Review, 14, 551-561. 1998.
6. Huang X, Madan A. CAP3: A DNA
Sequence Assembly Program.
Genome Biol 9: 868-877. 1999.
7. Hunt SP, Livesey FJ. Functional
genomics. Oxford University
Press. 2000. 253p.
8. Matioli RM. Biologia Molecular e
Evoluo. Ed. Ribeiro Preto: Holos, 2001. 202 p.
9. Nei M, Kumar S. Molecular evolution and phylogenetics. 1 Ed.
New York: Oxford, 2000. 333 p.
10. Lander ES et al. Initial sequencing and analysis of the human
genome. Nature 409:860-921.
2001.
11. Li WH, Graur D. Fundamentals
of molecular evolution. 2. Ed.
Sunderland: Sinauer Associates,
2000.480p.
12. Prosdocimi F et al. Clustering of
Schistosoma mansoni mRNA
sequences and analysis of the
most transcribed genes: implications in metabolism and biology of different developmental stages. Mem Inst Oswaldo Cruz
97: 61-69. 2002.
13. Schena M. Microarray Analysis.
Ed. John Wiley & Sons. 2002.
14. Setubal JC, Meidanis J. Introduction to Computational Molecular
Biology. Brooks Cole Publishing
Company. 1997. 296p.
15. Stein L. Genome annotation:
from sequence to biology. Nat
Reviews 2: 493-505. 2001.
16. Strohman R. Five stages of the
Human Genome Project. Nat. Biotechnol 17, 112. 1999.
17. Schwartz RL. Learning Perl. Ed.
OReilly & Associates, Inc. 1993.
247p.
18. Tisdall JD. Beginning Perl for
Bioinformatics. Ed. OReilly &
Associates, Inc. 2001. 368p.
19. Venter JC et al. The sequence of
the human genome. Science
29:1304-51. 2001.

Biotecnologia Cincia & Desenvolvimento - n 29

25