Você está na página 1de 10

As micas:

Pesquisa

Integrando a bioinformao
O papel da bioinformtica em expanso

Dr. Eliseu Binneck


Consultor/Pesquisador na rea de Bioinformtica
Embrapa Soja, Londrina PR.
binneck@cnpso.embrapa.br
Imagens cedidas pelo autor

Como resultado dos crescentes


investimentos na rea da genmica nos
ltimos anos, a lista de sequncias de
genomas completos vem crescendo
a uma velocidade cada vez maior e
contribuindo com a disposio de um
volume de dados para acesso pblico
sem precedentes na histria. Hoje
Figura 1. Evoluo no nmero de genomas
(maio de 2004) so 190 genomas comsequenciados desde 1995 at abril de 2004.
pletos publicados, dos quais, 145 de
Grfico produzido com permisso a partir de
procariotos, 18 de archaea e 27 de
informaes disponveis no banco de dados
eucariotos. Alm disso, existem 900
GOLD (http://www.genomesonline.org) (Bernal
genomas sendo seqenciados; 460 de
& Kyrpides, 2001).
procariotos, 26 de archaea e 414 eucariotos (http://www.genomesonline.org).
A Figura 1 apresenta a evoluo na
obteno de sequncias genmicas
completas de organismos de vida livre.
Um forte componente que tem (Mewes et al, 2004), so de domnio ser imediatamente determinadas (por
auxiliado tremendamente essa pblico e possibilitam a obteno de exemplo, por homologia com
evoluo da informao genmica so informaes organizadas, alm de in- protenas, j conhecidas, de outros
as ferramentas de bioinformtica. tegrarem ferramentas poderosas, pos- organismos). H uma estimativa,
Atualmente os dados de sequncias sibilitando, por exemplo, a anlise baseada em genomas recmpodem ser explorados com o uso de comparativa entre dados de diferentes completos, que cerca de 30% do
poderosas ferramentas de busca, genomas.
contedo gnico de um organismo seja
acessando fontes de informao
Entretanto, em meio a esse clima de protenas especficas deste (Rubin
eletrnica associada e integrada de um de novidade e excitao, parece ter et al, 2000). claro que esse nmero
modo inconcebvel h menos de uma se estabelecido uma expectativa tende a diminuir medida que mais e
dcada, quando, em 1995, foi seqen- excessiva sobre a aplicao de dados mais genomas vo sendo
ciado o primeiro genoma de um orga- de sequncias genmicas em busca seqenciados, mas mostra a
nismo de vida livre, Haemophilus in- de inferncias biolgicas. Por outro dificuldade em proceder-se a uma
fluenzae (Fleischmann et al, 1995). lado, existe um crescente anotao automatizada [confivel e
Muitas dessas ferramentas, como En- reconhecimento e entendimento de completa] dos genomas.
sembl Genome Browser (http:// que tais metodologias baseadas na
As predies computacionais a
www.ensembl.org/) (Stalker et al, seqncia de DNA tero que ser partir de dados de seqncias so com2004), KEGG (http://www.genome.ad.jp/ complementadas pela anlise direta plicadas e nem sempre geram resultakegg/kegg2.html ) (Kanehisa et al,
dos produtos codificados pelos genes; dos confiveis, principalmente no caso
2004),
GeneQuiz (http:// os RNAs e as protenas. Sabe-se que de genomas mais complexos como o
www.sander.ebi.ac.uk/gqsrv/submit/) conhecer a seqncia de um genoma genoma humano. Embora o trmino
(Hoersch et al, 2000) e MIPS (http:// no garante que as protenas do Projeto Genoma Humano tenha
w w w . m i p s . b i o c h e m . m p g . d e / ) codificadas por esse genoma possam sido comemorado em abril de 2003
Fig.1: Plntula de caf cv Rubi, crescida in vitro e obtida a partir
de
axilar de
uma& Desenvolvimento
outra plntula
similar
a ela. Assim
28 gema
Biotecnologia
Cincia
n.32
- janeiro/junho
2004 por
diante, outros clones podem ser obtidos

(Collins et al, 2003; Pennisi, 2003a), o


nmero exato de genes codificados
pelo genoma ainda desconhecido e
podem ser necessrios anos ainda at
que tenhamos uma contagem confivel do nmero de genes no genoma
humano.
A razo para tanta incerteza que
as predies so derivadas a partir de
diferentes mtodos computacionais e
programas de predio gnica. Alguns
programas
detectam
genes
procurando por parmetros diferentes
que definem onde um gene comea
e termina (predio ab initio).
Outros programas procuram por genes
pela comparao de segmentos de
sequncia com homologia com genes
e protenas conhecidos (predio
comparativa). Enquanto a predio ab
initio tende a sobrestimar o nmero
de genes pela contagem de qualquer
segmento que parea um gene, o
mtodo de predio comparativa
tende a subestimar este nmero, j que
limitado por reconhecer somente os
genes similares aos j conhecidos. A
definio de gene problemtica
porque pequenos genes podem ser
difceis de detectar, um gene pode
codificar para vrios produtos
proticos, alguns genes codificam para
RNA, dois genes podem se sobrepor,
e h muitas outras complicaes
(Pennisi, 2003b). Sendo assim,
mtodos computacionais por si s no
so suficientes para gerar o nmero
real e o conhecimento de todos os
genes de um genoma eucaritico
complexo; pelo menos com as
informaes existentes atualmente.
At que se gere um conjunto de dados
bastante informativo para as predies
comparativas, essas precisaro ser
verificadas por trabalho intensivo de
laboratrio antes de se chegar a um
consenso real.As ltimas estimativas a
partir de programas de predio

gnica sugerem que no genoma


humano devem existir 24500 ou
menos genes que codificam para
protenas (Pennisi, 2003c). A
estimativa do Ensembl (verso
20.34c.1, de 08-02-2004) de 23531
genes, incluindo 1744 pseudogenes
(http://www.ensembl.org/Homo_sapiens/)
(Stalker, 2004). Essa estimativa
muito menor do que aquelas das
anotaes iniciais, que contavam mais
de 70.000 genes (Write et al, 2001).
Considerando que os genes no
genoma humano apresentam um
tamanho mdio de 3000 pares de
bases, menos de 2% do genoma
codificam para protenas. Assim
mesmo, atualmente desconhecida
a funo de mais de 50% dos genes
descobertos.
Observando a inesperada
equidade relativa no nmero de genes
de organismos bastante diferentes em
termos de complexidade (Quadro 1),
sugere-se que o fator que determina
a complexidade de um organismo no
est no nmero de genes, mas em
como as partes gnicas so usadas
para construir diferentes produtos em
um processo chamado splicing
alternativo. Outra razo para essa
maior complexidade so as milhares
de modificaes qumicas ps
traducionais que ocorrem nas protenas
e o repertrio de mecanismos de
regulao que controlam esses
processos (Genomics and Its Impact
on Science and Society: The Human
Genome Project and Beyond, 2003).
A verso 34.00 do banco de dados
RESID (http://pir.georgetown.edu/
pirwww/dbinfo/resid.html) (Garavelli,
2003) apresenta 339 modificaes
ps ou co-traducionais conhecidas em
protenas, modificaes essas que no
podem ser evidenciadas diretamente
a partir da seqncia gnica.
Informao versus ao

Em qualquer sistema biolgico, se


um trabalho realizado, quase sempre a molcula responsvel por essa
ao uma protena. A vida depende
de milhares de protenas diferentes,
cujas estruturas so ajustadas para que
molculas individuais de protenas
combinem, numa preciso impressionante, com outras molculas. Reaes
qumicas na clula dependem da combinao de enzimas com substratos e
essas so geralmente controladas por
outras molculas combinando com stios especficos da protena. Estruturas como os msculos dependem da
interao protena-protena, o controle
da expresso gnica depende da
combinao protena-DNA, o controle
hormonal depende da interao do
hormnio com receptores proticos,
o transporte atravs da membrana
envolve interaes soluto-protena,
protees imunes requerem a interao antgeno-anticorpo, atividades
neuronais requerem a interao substncia transmissora-protena. Estes
so apenas alguns exemplos do
universo quase infindvel de interaes especficas em que as protenas so envolvidas. Todas essas interaes dependem do reconhecimento
exato de estruturas especficas nas
molculas das protenas envolvidas
(Goodsell, 1991). Neste contexto,
bancos de dados como o LIGAND
(http://www.genome.ad.jp/ligand/)
(Goto, 2002) possibilitam visualizar
cada uma entre o universo de reaes
qumicas conhecidas envolvendo a
interao de enzimas com metablitos e outros compostos. Interaes
protena-protena, protena-DNA e
protena-RNA podem ser encontradas
em bancos de dados como BIND
Biomolecular Interaction Network
database (http://www.bind.ca/) (Bader et al, 2003), DIP Database of Interacting Proteins (http://dip.doe-

Quadro 1 Tamanho do genoma e nmero estimado de genes de diferentes organismos.


Organismo
Tamanho do Genoma (pares de bases)
Homem (Homo sapiens)
3 bilhes
Rato (M. musculus)
2,6 bilhes
Mostarda (A. thaliana)
100 milhes
Roundworm (C. elegans)
97 milhes
Mosca das frutas (D. melanogaster)
137 milhes
Levedura (S. cerevisiae)
12,1 milhes
Bactria (E. coli)
4,6 milhes
Virus da AIDS (HIV)
9700

N Estimado de Genes
30.000
30.000
25.000
19.000
13.000
6.000
3.200
9

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

29

mbi.ucla.edu/) (Salwinski et al, 2004)


e MINT Molecular INTeractions
(http://cbm.bio.uniroma2.it/mint/)
(Zanzoni, et al, 2002). Informaes
sobre interao antgeno-anticorpo so
disponveis no IMGT International
Immunogenetics
Database
(imgt.cines.fr) (Lefranc, 2004).
Cada vez mais se torna evidente
que a aplicao de dados de seqncias de DNA, utilizando informaes
sobre a relao entre a seqncia de
DNA do gene e a funo protica, no
sustenta a atribuio infalvel de funo
para as protenas. Muitas evidncias
mostram a fragilidade das constataes feitas puramente a partir de
seqncias genmicas, sugerindo que
(i) embora a seqncia genmica possa ser usada para predizer open reading frames (ORFs), tais predies so
ainda muito grosseiras e passveis de
erro, principalmente em eucariotos.
(ii) O processamento do mRNA tem
uma influncia importante no produto final da expresso gnica; o proteoma. o caso do splicing alternativo, em que, pela montagem de diferentes combinaes de exons, um prmRNA d origem a dois ou mais mRNAs diferentes, que codificam para
produtos proticos diferentes. Como
resultado, as modificaes advindas do
processamento do mRNA permitem
que seja produzida uma variedade de
protenas superior ao nmero de genes
do genoma. (iii) Existe uma enorme
diversidade de modificaes ps-traducionais que uma protena pode sofrer, influenciando a sua funo, localizao celular e atividade. A informao da seqncia de DNA ainda no
d um discernimento claro sobre modificaes ps-traducionais a que cada
produto protico est sujeito, sendo
difcil, se no impossvel, estabelecer
um nmero de protenas produtos
que cada gene codifica. (iv) Os mecanismos de controle da expresso gnica envolvem uma rede complexa e
varivel de interaes moleculares,
cujo entendimento ainda bastante
rudimentar. Esses mecanismos no so
prontamente evidentes a partir do
conhecimento da seqncia de DNA
Fig.5: Fruto de mamo
do genoma, havendo ainda grandes
(Carica papaya L. cv tainung
limitaes em se utilizar a informao
1) mostrando aspectos e
da seqncia de DNA com o intuito
quantidade de sementes por
de conhecer o contedo e a dimanifruto
30

cidade das protenas codificadas por


um determinado genoma.
Fotografia versus filme
Certos grupos de protenas interagem entre si para realizar determinados trabalhos celulares. Um exemplo bem tpico so as protenas organizadas em vias metablicas como a
gliclise, o ciclo de Krebs, e outras,
em que os produtos gnicos chamados enzimas precisam trabalhar em
harmonia. Outro exemplo bem conhecido o caso das protenas estruturais que devem estar juntas e organizadas precisamente para exercer a
sua funo, como exemplo, os componentes de uma unidade ribossomal, as histoprotenas que so essenciais para manter a estrutura da cromatina etc. Desse modo, em estudos de
expresso gnica habitual assumir
que grupos de genes cujos modelos
de expresso so similares entre si,
sejam provavelmente funcionalmente
relacionados.
Um problema com as tcnicas de
agrupamento de dados de expresso
gnica (ESTs, SAGE, Microarrays), no
entanto, que elas so baseadas na
suposio de que os genes que apresentam modelos de expresso similares so de fato relacionados funcionalmente, isto , eles tm funes que
so relacionadas. Essa interpretao
geralmente leva a erros na tentativa
de entender a relao real entre os
genes [atravs dos seus produtos].
Existem razes para pr em dvida essa suposio: primeiro, ainda
muito inconsistente o conhecimento
de quo discretamente trabalham os
grupamentos funcionais de genes na
maquinaria celular. Pode ser que
produtos gnicos individuais tenham
tantos papis diferentes em diferentes
circunstncias, que vrios deles participem de papis essenciais em mais
de uma funo. Por exemplo, os processos de defesa contra estresses biticos (originados do ataque de agentes
patognicos), ou estresses ambientais,
podem ser extremamente complexos e envolverem diferentes mecanismos atuando em conjunto. Segundo,
o termo relacionados funcionalmente por si s mal especificado.
Se o modelo de expresso de um

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

gene similar ao de um outro gene,


isso pode significar vrios tipos de relacionamento, desde dois genes tendo produtos que interagem fisicamente, um gene que codifica para
um fator de transcrio para outro
gene, dois genes ambos com seqncias promotoras ligadas por repressores que so liberados quando
um receptor nuclear ativado, mesmo que os dois genes tenham funes
muito distantes. claro que existe um
nvel de abstrao no qual todos os
genes so funcionalmente relacionados no trabalho de manter a clula viva
e produzindo todos os componentes
necessrios para o organismo como um
todo. Mas abaixo desse nvel de abstrao existem muitos alternativos,
pela sua natureza, favorecendo a
definio de agrupamento. Portanto,
perfeitamente questionvel a atribuio indistinta de que similaridade
em expresso corresponde similaridade em funo.
Alm disso, o que constitui realmente um modelo de expresso similar ainda pouco preciso, ou pelo
menos existem mltiplas definies
alternativas. Por exemplo, similaridade
poderia significar ter um modelo de
mudana similar ao longo do tempo.
Pode significar tambm nveis absolutos de expresso a qualquer dado
momento, ou pode significar a perfeita oposio, mas bem coreografada no modelo de expresso. Pensando em mtodos comparativos, qual
medida de discrepncia exatamente
escolhida para medir os modelos de
expresso influenciar o tipo de agrupamento funcional esperado. Mtodos confiveis e exeqveis em escala genmica para medio absoluta da
expresso gnica precisam ainda ser
desenvolvidos.
Corretamente interpretados ou
no, dados de expresso gnica vm
sendo acumulados em volume e variedade cada vez maior. Um ensaio isolado de hibridao com DNA Microarrays, por exemplo, fornece na melhor das hipteses uma viso esttica
do nvel de expresso comparativo entre os genes amostrados. Seria como
a fotografia do evento. Mas dificilmente uma fotografia consegue mostrar todo o panorama. Uma nova fotografia, tomada de um outro ngulo,

pode mostrar nuances que no haviam sido captadas anteriormente, e


assim por diante. Conhecer as
mudanas diferente de percorrer o
caminho que leva aos estados diferenciados. Por exemplo, entender a
trajetria da ocorrncia de vrios RNAs
mensageiros em vez de conhecer
apenas valores absolutos ou comparativos em um dado momento, proporciona muito mais informao sobre a operacionalidade do sistema.
A vida essencialmente dinmica. Apenas o filme, isto , a anlise
dinmica do sistema, pode dar suporte para o entendimento completo dos
processos biolgicos. E a est o
grande desafio da bioinformtica. A
integrao comparativa dos dados
precisa ser realizada in silico, transformando o conjunto de imagens estticas no filme da vida.

As micas

larga escala, deu campo para o surgimento de uma lista de novos termos,
Antes da era da bioinformtica, que no pra de crescer. Estamos ensomente duas maneiras de fazer ex- trando na era das micas (Palsperimentao em biologia eram dis- son,2002). Com centenas de milhares
ponveis: utilizando um organismo vivo de protenas para identificar, correla(tambm chamado in vivo) ou em cionar e entender, por exemplo, no
um sistema artificial (tambm chama- suficiente estudar um gene, um
do in vitro). Seguindo essa analogia, produto gnico ou um processo de
podemos dizer que a bioinformtica cada vez. Por outro lado, estudar em
de fato a biologia in silico. A bioin- larga escala um conjunto de molcuformtica veio para facilitar o uso de las com o objetivo de entender mecancomputadores no sentido de organizar ismos celulares, dificilmente podem
e analisar integradamente uma mon- responder questes interessantes sem
Fig.6:deGerminao
de sementes
de mamo
sob condies
in vitro,gerada
aps pela
a assistncia
da informao
tanha
dados complexos
e variados,
ter-se
retirado
a
sarcotesta
e
realizado
sua
assepsia
possibilitando enfrentar o desafio de pesquisa tradicional dirigida por hipdecifrar componentes importantes teses. Por isso, os dois tipos de cindentro de um universo crescente de cia atualmente disponveis, as micas
informaes. Isso somado ao desen- e as pesquisas dirigidas por hipteses
volvimento de equipamentos podero- (Weinstein, 2001), so sinrgicas e
sos para a miniaturizao e automao devem ser utilizadas de modo a se
da aquisio de dados biolgicos em complementarem.

Genmica
A genmica se caracteriza pelo estudo dos genes e suas funes. A sua chegada, com o projeto genoma humano
no final da dcada de 1980, alavancou toda a revoluo atual no campo da biologia. Muitas expectativas e investimentos
tm sido empregadas na genmica, visando aplicaes nas reas da indstria farmacutica, agricultura, produo de
energia e proteo do meio ambiente. Mas a determinao da seqncia completa de vrios genomas no o final da
histria. apenas o comeo, principalmente pelo fato de que mecanismos biolgicos no podem ser inferidos simplesmente
a partir do conhecimento da seqncia sem o auxlio de outras estratgias de estudo, as micas em geral.
Genmica comparativa. Esse novo ramo da genmica, que vem se tornando cada vez mais comum dada a
quantidade de seqncias de genomas sendo produzidas, tem o objetivo de comparar todo o contedo de DNA do
genoma de um organismo particular com outros genomas j conhecidos. Atravs dessa anlise pode ser possvel
identificar diferenas, tanto no contedo gnico quanto no-gnico, que podem ser responsveis por importantes
propriedades fenotpicas ou evolutivas, como patogenicidade, reaes a condies ambientais adversas, proximidade
taxonmica entre grupos e at mesmo a aquisio (ou manifestao?) de determinados comportamentos individuais.

Transcriptmica (ou genmica funcional)


O produto inicial da expresso gnica em um organismo conhecido como transcriptoma e se caracteriza por
uma coleo de molculas de RNA mensageiro cuja informao biolgica requerida pela clula em um determinado
momento. Essas molculas de mRNA so sintetizadas a partir de genes que codificam protenas e, assim, direcionam a
sntese do produto final da expresso gnica, o proteoma, que especifica a natureza das reaes bioqumicas que a
clula est apta a realizar. Um ponto importante a notar que o transcriptoma nunca sintetizado de novo, isto , no
comea do zero. Cada clula recebe parte de seu transcriptoma materno quando formada pela diviso celular, e
depois responsvel pela manuteno e adaptao do transcriptoma conforme os diferentes estgios de sua vida e o
tipo de diferenciao tomado.
Como regra geral, RNAs mensageiros bacterianos tm meias-vidas de no mais de poucos minutos e em eucariotos a maioria dos mRNAs so degradados poucas horas aps a sua sntese. O turnover rpido significa que a composio do transcriptoma no fixa e pode ser rapidamente reestruturada pela mudana no nvel de sntese de mRNAs
especficos. Assim, a transcrio no resulta na sntese do transcriptoma, mas apenas o mantm pela reposio de
mRNAs que foram degradados, e promove mudanas na composio do transcriptoma ligando ou desligando os diferentes genes ou conjuntos de genes.
Avanos tecnolgicos baseados na PCR, intenso sequenciamento de cDNA e sntese de novo de cidos nuclicos,
tm contribudo para o desenvolvimento de tcnicas de quantificao de mRNA em larga escala, em muitos casos em
escala genmica, possibilitando que centenas ou milhares de genes sejam estudados em paralelo em vez de um gene
de cada vez. Mtodos como Differential Display (DD), Serial Analysis of Gene Expression (SAGE) e DNA array
hibridization ou DNA microarray, todos trouxeram benefcios significativos em relao ao Northern blotting em
termos de sensibilidade e nmero de ensaios. Entre essas tecnologias, a que vem ganhando preferncia para estudar a
composio de um transcriptoma, e fazer comparaes entre diferentes transcriptomas, a tcnica de DNA microarray,
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

31

que se baseia na hibridao em paralelo de cidos nuclicos. Experimentos de expresso gnica com DNA microarrays
vm sendo largamente utilizados para explorar o modelo de expresso simultnea e em paralelo de milhares de genes.
Isso requer ferramentas poderosas de correlao computacional.
Um DNA microarray consiste de uma coleo de sequncias parciais de genes (normalmente cDNAs) que so
espotados individualmente em locais especficos de uma lmina. Essas sequncias geralmente variam de 500 a 4000
bases (idealmente 500 a 2000 bases) e podem ser escolhidas a partir de diferentes regies do gene dependendo do
objetivo do projeto. Uma variao da tcnica, chamada DNA chip, baseada na deposio ou sntese in situ de
oligonucleotdeos para a gerao de alvos. Esses chips contm oligmeros curtos variando de 25 a 80 bases como
seqncias-alvo. Enquanto essas sequncias curtas podem conferir alta sensibilidade, elas podem apresentar baixa
especificidade de ligao comparada com DNA microarrays, uma vez que as seqncias so curtas e usualmente no
representam genes conhecidos.
O uso de DNA microarrays para o estudo do modelo de expresso gnica baseia-se em dois princpios. Primeiro,
considera-se que cada gene expresso ou no e as diferenas no seu nvel de expresso em uma clula ou tecido, em
determinado momento, so um reflexo de quais mRNAs esto presentes e a sua abundncia, e; segundo, as fitas de
DNA podem hibridar-se com seqncias complementares formando uma molcula estvel em fita dupla.
Tipicamente, a primeira face dos dados experimentais de DNA microarrays uma lista de genes/sequncias ou
nmeros de identificao e o seu perfil de expresso. Modelos de correlao dentro do conjunto massivo de dados de
pontos no so bvios por uma inspeo visual. Diferentes algoritmos de agrupamento computacional precisam ser
usados simultaneamente para reduzir a complexidade dos dados e para encurtar a relao entre genes de acordo com
o seu nvel de expresso ou mudanas nos nveis de expresso. Problemas relacionados com as tcnicas de agrupamento so considerados na seo anterior.
Uma das maiores vantagens da utilizao da tcnica de DNA microarray, comparando-a com outros mtodos,
a facilidade da anlise simultnea e em paralelo de um grande nmero de genes e de um grande nmero de amostras.
Deve ser notado, entretanto, que todas essas tcnicas usadas para a quantificao de mRNA proporcionam um nvel de
informao emprica e no uma condio estvel absoluta. Alm disso, sabe-se que a deteco de uma diferena na
abundncia de um mRNA especfico entre duas amostras biolgicas no necessariamente refletida por uma diferena
quantitativa equivalente no nvel de abundncia da protena, o que muitas vezes est implcito nos estudos.
Existem, portanto, limitaes intrnsecas da tcnica, entre as quais (i) a abundncia do mRNA nem sempre bem
correlacionada com a abundncia da protena, (ii) a sensibilidade e variao dinmica dos mtodos existentes so tais
que os mRNAs menos abundantes, potencialmente codificando as protenas regulatrias mais importantes, no so
facilmente medidos como acontece com os mRNAs mais abundantes, e (iii) a atividade das protenas codificadas pelos
mRNAs regulada a vrios nveis aps a sua expresso. Por exemplo, a localizao subcelular e/ou a extenso em que
as protenas so ps-traducionalmente modificadas, no so reveladas pela medio da abundancia do mRNA.

Protemica
Para entender a funo de todos os genes em um organismo, necessrio conhecer no s quais genes so
expressos, quando e onde, mas tambm quais so os produtos da expresso e em que condies esses produtos
(protenas) so sintetizados em certos tecidos. A protemica tenta descrever o conjunto completo de protenas produto
da expresso do genoma (James, 1997), e fornece informaes importantes para complementar os estudos de transcriptmica e metabolmica.
Os organismos podem sintetizar muitos milhares de protenas ao mesmo tempo, e a diversidade potencial de
tipos de protenas no proteoma certamente excede o nmero estimado de genes no genoma. Isso ocorre porque os
produtos de um gene podem diferir devido a splicing alternativo e uma variedade de modificaes ps-traducionais
possveis, como apresentado acima. O crescente interesse no campo da protemica vem concentrando esforos para
acelerar o desenvolvimento e implementao de estratgias mais apropriadas para a anlise de expresso e funo de
protenas em escala genmica.
Esse interesse tem ocorrido, em parte substancial, devido ao sucesso dos projetos de sequenciamentos genmicos, considerando que a realizao bem sucedida desses projetos tem resultado em uma apreciao mais extensa de
que, por si s, eles revelam menos do que se esperava sobre a biologia do organismo. Os dados de sequncias
genmicas proporcionam uma plataforma essencial para um conhecimento mais amplo das estratgias experimentais
complementares que daro suporte caracterizao dos genes contidos nos genomas. A utilizao integrada dessas
ferramentas possibilitar o entendimento de como os produtos desses genes atuam conjuntamente para regular as
atividades do organismo.
A protemica depende da extrao, separao, visualizao, identificao e quantificao das protenas presentes
em um organismo ou tecido, em um determinado momento. Todos esses estgios tm limitaes. Portanto, atualmente,
impossvel descrever o proteoma completo de um organismo.
Atualmente, o ponto de partida para muitas tentativas na investigao das mudanas na expresso protica
envolve a resoluo das protenas de uma mistura complexa por eletroforese 2-D e a sua subsequente identificao
usando mtodos analticos cada vez mais precisos e poderosos. Eletroforese 2-D, complementada com HPLC, permite
32

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

separar e purificar vrios milhares de protenas extradas de um tecido ou clulas, em um determinado momento ou
condio. Embora a eletroforese 2-D apresente significantes limitaes, parece ser o melhor mtodo at o momento
para resolver um grande nmero de protenas de uma mistura, ao mesmo tempo em que permite acessar as mudanas
no nvel de expresso e a purificao de protenas chave para subsequente caracterizao.
Avanos relativamente recentes na caracterizao de protenas tm surgido da automatizao de mtodos como
matrix-assisted laser desortion-ionization (MALDI) e eletrospray ionization (ESI) mass spectrocopy (MS) para se
obter o fingerprinting de massa e sequenciamento de peptdeos.

Metabolmica
A metabolmica uma rea da genmica funcional que estuda as mudanas na expresso de pequenas molculas
orgnicas, conhecidas como metablitos, em sistemas biolgicos. Ela promete complementar a genmica por permitir
avaliaes objetivas do fentipo (Weckwerth, et al, 2004).
Grande importncia vem sendo dada para a combinao de dados de metabolmica com dados de expresso
gnica e protemica. A metabolmica ajudar na revelao de como os gentipos so associados com os fentipos e
fazer simulaes de mecanismos celulares em larga escala. Em uma escala maior, o fenomenoma (Schilling et al, 1999;
Palsson, 2000) ajudar a materializar mtodos de anlise com a melhor tecnologia para estudos [e interpretaes] do
metaboloma.
O fenomenoma requer uma organizao de descobertas biolgicas, quantificando e identificando todos os
metablitos em um complexo de amostras biolgicas, rpida e simultaneamente. Isso deve ser obtido sem qualquer
seleo a priori dos metablitos de interesse, para evitar tendenciosidades. Softwares de bioinformtica so necessrios
para organizar e facilitar a visualizao dos dados de modo a auxiliar na sua interpretao (Steuer et al, 2003; Covert et
al, 2004). Os softwares devem combinar dados obtidos por DNA microarrays, protemica e metabolmica numa
mesma visualizao.
Essa tecnologia permitir, em ltima instncia, a integrao e correlao das mudanas globais no metabolismo e
expresso gnica. Uma anlise quantitativa de todos os metablitos em uma clula pode ajudar no entendimento de
problemas como, por exemplo, os efeitos pleiotrpicos, em que um nico gene determina um nmero de caractersticas
no relacionadas. Problemas assim podem ser mais bem entendidos se uma alterao detectada no contedo de um
metablito, utilizado em vias metablicas diferentes, estiver relacionado com uma mutao no gene ou a sua sobreexpresso ou inibio.
O Quadro 2 mostra a evoluo
das principais novas reas da pesquisa
biolgica no ltimos anos, baseada no
nmero de ocorrncias de termos relacionados na literatura cientfica.
Alm dessas, uma variedade de
micas vem surgindo e uma sobreposio de propsito inevitvel.
Entre outras tantas, a farmacogenmica (Marshall, 1997) visa entender a interao da constutuio
gentica de um indivduo com a resposta a drogas.
A fisimica (Sanford et al, 2002)
se dedica a fazer uma descrio quantitativa das funes fisiolgicas de um
organismo intacto. necessrio predi- zer o fentipo a partir do gentipo, mas isso difcil por causa das in-

fluncias do ambiente e as circunstncias do crescimento, desenvolvimento e doenas. O objetivo obter o


um discernimento de toda a fisiologia
de um organismo, incluindo as vias
metablicas e todas as molculas e
suas interaes, que fazem o organismo completo. Uma das primeiras iniciativas nesse campo o Projeto Fisioma (http://physiome.org/), cujo
principal objetivo entender o organismo humano, descrevendo quantitativamente a sua fisiologia e patofisiologia, utilizando inclusive informaes
provenientes dos fisiomas de outros
organismos, para melhorar a sade
humana (Bassingthwaighte, 2000).
A regulmica (Werner, 2004)
o estudo das instrues bioqumicas

da rede de interao gnica que controla os mecanismos de regulao da


expresso dos genes para fazer todos
os tipos de clula necessrios para
construir organismos completos (Kondro, 2004; Gao et al 2004; Roven &
Bussemaker, 2004).
A peptidmica se dedica a estudar peptdeos pequenos (0,5 a 15
kDa), como hormnios, citoquinas,
fatores de crescimento, venenos, toxinas, peptdeos antimicrobianos etc.
Essas molculas tm papel fundamental em muitos processos biolgicos
(Schulz-Knappe et al, 2001; Prates &
Bloch, 2002).
A degradmica a aplicao de
dados gerados pela genmica e protemica para identificar as proteases

Quadro 2 Nmero de ocorrncias de referncias no PubMed (http://www.ncbi.nlm.nih/) em algumas novas reas da pesquisa
biolgica, desde 1998. Busca limitada para os campos Ttulo e Abstract.
Palavra chave
Genomics
Comparative genomics
Functional genomics
Transcriptomics
Proteomics
Pharmacogenomics
Metabolomics
Peptidomics
Bioinformatics

1988
3

1990
12

1991
23

1992
38

1993
52

1994
64

12

1995
90
4

20

1996
130
8

44

1997
208
18
10

1
1

78

1998
386
37
46

20
11

144

1999
678
69
131
1
67
37

230

2000
1263
126
277
3
277
136
2

420

2001
2081
192
480
7
631
249
7
5
657

2002
3104
291
736
23
1254
472
28
8
1058

2003
4199
427
1016
41
2022
702
59
18
1604

Abril2004
4660
503
1127
63
2444
795
81
23
1852

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

33

e os seus substratos em escala genmica, para descobrir novos papis para


proteases in vivo. O objetivo facilitar a identificao de novos alvos para
o desenvolvimento de frmacos visando o tratamento de doenas (LopezOtin & Overall, 2002).
A epigenmica busca esclarecPESQUISA
er como o genoma funciona como um
todo. Ela combina a gentica com o
ambiente para buscar uma compreenso dos sistemas biolgicos complexos como a plasticidade do genoma.
Embora todas as clulas nucleadas de
um organismo levem o mesmo
genoma, elas expressam diferentes
genes em diferentes momentos e
condies. Esses mecanismos de regulao da expresso gnica so complexos, e um dos principais fatores
envolvidos so as mudanas epigenticas resultantes da metilao
diferencial do genoma. Da, diz-se que
resultam diferentes epigenomas. Alguns estudos tm demonstrado o envolvimento da metilao do DNA num
processo chamado imprinting
genmico, que controla a expresso
de alguns genes em mamferos, podendo ter efeito no surgimento de
doenas, especialmente o cncer.
Novik et al (2002) apresenta uma reviso sobre o assunto.
A toxicogenmica (Kramer &
Kolaja, 2002 e Guerreiro et al, 2003)
marca um novo paradigma no desenvolvimento de drogas e anlise de
risco, que promete gerar uma enorme
quantidade de informao na direo
de aumentar o entendimento do
mecanismo molecular que leva toxicidade da droga e eficincia. esperado que a toxigenmica seja mais e
mais integrada com todas as fases do
processo de desenvolvimento de drogas, particularmente na toxicologia
mecanstica e preditiva, e descobrimento de biomarcadores, buscando
identificar polimorfismos no DNA relacionados com a suscetibilidade individual toxicidade em relao a uma
determinada droga. O objetivo a
seleo de candidatos no sentido de
ajudar a desenvolver e utilizar drogas
que produzam menor toxicidade.
Antes e depois da genmica:
a velha e a nova biologia

34

Depois do descobrimento da
dupla fita de DNA, do cdigo gentico, enzimas de restrio, PCR e tantos avanos na biologia molecular durante a segunda metade do sculo
passado, na ltima dcada experienciamos uma nova revoluo no campo da biologia com a era da genmica, e com ela muitas outras micas,
como apresentado acima. Nesse contexto, muitas perguntas surgiram e
permanecem ainda sem respostas
satisfatrias, como: quais os impactos da genmica nos projetos de
pesquisa nas diversas reas das cincias biolgicas? o mtodo cientfico

Figura 2. Ilustrao do processo de obteno de novas


descobertas nos diversos
campos da cincia.

ainda relevante? a bioinformtica


uma disciplina separada? como pode
ser melhorada a comunicao entre
as culturas cientficas atuais e a tecnologia da informao (IT) para solucionar a necessidade da integrao
dos dados disponveis, que apresentam-se em fontes e formatos to variados? perguntas como essas so
chaves para as aes futuras nas biocincias.
Fazendo um paralelo entre a
velha biologia e a situao atual, podemos notar que o predomnio de
pesquisadores mais ou menos independentes e profundamente especializados em um domnio estreitamente focado, no adequado para
a nova cincia cada vez mais integrada e ampla. Os estudos voltados para
um gene ou uma funo de cada vez
do lugar para a anlise quantitativa
de centenas de milhares de genes, e
no mais focalizando apenas uma espcie, mas com uma abordagem de
integrao comparativa de dados interespecficos. Os grandes investimentos voltados para enfoques

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

cientficos muitas vezes pouco


abrangentes e hipteses dirigidas pela
pesquisa so substitudos pela automao e miniaturizao, reduzindo
o custo e aumentando a velocidade
da coleta de dados. A necessidade da
busca de ferramentas computacionais
bsicas e somente para analisar conjuntos de dados suplantada pela rpida disponibilidade de bancos de dados, grandes demais para um pesquisador conseguir analisar os dados
sozinho. E, assim, onde esto as hipteses? poderamos caracterizar essa
revoluo como uma grande expedio para o acabamento da cincia
da vida? quais so os impactos para a
sociedade?
Embora se tenha observado uma
grande mudana no tipo e quantidade
de dados obtidos, e a validade do
mtodo cientfico ser colocado em
xeque, o plano clssico no curso da
cincia continua sendo vlido. Os dados geram informao, que gera novos conhecimentos, que proporcionam o caminho para novas descobertas. No final, algumas vezes, paradigmas so transpostos (Figura 2). A principal diferena que at algumas
dcadas atrs, esse processo requeria
somente poder de raciocnio, lpis e
papel. Agora requer tecnologia computacional sofisticada. Para isso, os
centros de pesquisa e universidades
cada vez mais tero que ter seus prprios grupos de bioinformtica, mantendo equipes multidisciplinares com atividades que de um lado promovam
uma melhor explorao dos dados biolgicos atravs de ferramentas de
bioinformtica e, por outro lado, as
questes geradas pelos dados biolgicos obtidos possibilitem melhorar as
ferramentas de bioinformtica. A bioinformtica ser cada vez mais importante em termos de integrao da informao, buscando impulsionar a
aquisio de conhecimento sobre os
sistemas biolgicos para a gerao de
novas sadas para problemas na agricultura, medicina, produo de energia e conservao do meio ambiente.
O papel da bioinformtica
em expanso
Os projetos genoma transformaram a biologia em muitos sentidos, mas

o mais impressionante avano foi a


emergncia da bioinformtica e o treinamento dos cientistas em tecnologias modernas de pesquisa. Inicialmente a bioinformtica teve como
aplicao principal facilitar o manuseio
da grande quantidade de dados gerados pelos projetos genoma, como a
montagem de contigs e fechamento
de seqncias genmicas, alm de dar
suporte para outras estratgias experimentais no campo da biologia molecular.
De l para c, muitas informaes
foram disponibilizadas em bancos de
dados pblicos de seqncias gnicas,
protenas, estruturas de macromolculas, perfil metablico, filogenia e outros, cujo valor ainda no pode sequer
ser estimado. Hoje no mais possvel avanar em biotecnologia sem a
integrao da tecnologia da informao com a tecnologia experimental. As abordagens de estudos biotecnolgicos atualmente buscam resolver questes especficas, optando-se
normalmente por fazer uma anlise
computacional inicial com a utilizao
dessas informaes para direcionar e
selecionar as estratgias experimentais, com considervel economia financeira e de tempo, sem considerar a
efetividade de tais procedimentos na
acelerao da obteno dos resultados
e descobertas cientficas.
Alm disso, muitas descobertas
esto sendo feitas simplesmente pela
anlise sistematizada dessas fontes de
dados, que no param de crescer tanto em volume como em complexidade e variabilidade. A tendncia atual para descobertas cientficas e sntese sendo dirigidas pela informao
emergindo intrinsecamente a partir da
biologia em si e a partir da diversidade
e heterogeneidade das observaes
experimentais. Um projeto tpico de
pesquisa pode comear com a coleo
de sequncias genmicas conhecidas
ou no conhecidas. Para sequncias
no conhecidas, pode-se conduzir uma
busca em bancos de dados por sequncias similares ou usar algoritmos computacionais procurando predizer as
suas possveis identidades e funes.
Isso requer o acesso verso mais
atual da coleo de dados, em bancos
de dados mundiais, e as ferramentas
fundamentais da bioinformtica agora

so cada vez mais parte dos mtodos


experimentais. Entretanto, essas informaes esto espalhadas em mltiplas
fontes, impossibilitando que os cientistas obtenham direta e eficientemente a informao requerida para
converter os dados complexos e heterogneos em dados teis, informao
organizada e sistematizada conforme
as linhas de pesquisa especficas.
Nesse ambiente, para responder
uma simples questo pode ser
necessrio acessar vrias fontes de
dados e utilizar ferramentas de anlise sofisticadas, como alinhamento de
sequncias, agrupamento, modelagem molecular etc. Enquanto a integrao dos dados uma rea de pesquisa dinmica, necessidades especficas dos biocientistas tm levado ao
desenvolvimento de numerosos sistemas que acabam desconectando o
acesso aos dados em um ambiente
direcionado por resultados. O resultado o crescente nmero de bancos
de dados e web sites representando
uma coleo confinada de dados, governada por sistemas prprios de gerenciamento e formatos particulares de
input e output dos dados, apresentaes grficas dos resultados, e problemas srios de compatibilidade e
interoperabilidade com outros sistemas. Uma evidncia disso o nmero crescente de novos bancos de dados relatados a cada ano na edio de
janeiro da Nucleic Acids Research
(http://nar.oupjournals.org/). A edio
atual lista 548 bancos de dados, 162 a
mais em relao ao ano anterior (Galperin, 2004). Boa parte desses bancos ainda so construdos com enfoques extremamente limitados para
aplicaes restritas, sem a preocupao com relao compatibilidade
e troca de informaes com outros
sistemas. Adaptaes so lentas e
muitas vezes difceis de implementar
quando a filosofia bsica do banco precisa ser mantida.
O acesso a esses dados precisa
melhorar em termos de eficincia,
velocidade e facilidade. Para facilitar
o entendimento dos processos biolgicos, necessrio fazer novos arranjos
aos recursos de dados disponveis. Por
exemplo, o que se faz inicialmente
em uma rota metablica, uma rede de
interaes moleculares etc.,

necessrio generalizar para outros


sistemas biolgicos; a partir de E. coli
para levedura, e chegar biologia de
organismos mais complexos, como o
homem, animais e plantas economicamente importantes. Trabalhar toda
essa informao conjuntamente fundamental para a gerao de novos insights. O rpido crescimento do volume de dados um desafio para cada
um, e com a produo de dados mais
diversos e em larga escala (por exemplo, dados de DNA microarrays)
esse crescimento est apenas
comeando.
As atividades de bancos de dados e desenvolvimento de algoritmos
computacionais precisam estar integradas para produzir uma infra-estrutura
de informao coesiva delimitando
toda a biologia. Para isso necessrio
o desenvolvimento de ferramentas
para disseminar e analisar massivas
quantidades de dados, inclusive literatura, e a construo de comunidades
de bancos de dados baseadas em
princpios operacionais padronizados
e com padres interoperacionais.
Muitos dos problemas da bioinformtica so genricos, por isso
solues em um domnio podem ser
naturalmente aplicveis para outros.
O entendimento da informao molecular at a clula, rgo e o sistema
biolgico do organismo ser o maior
desafio (fenomenoma). A passagem
do gentipo para o fentipo requerer um novo conjunto de ferramentas
computacionais altamente robustas. O
principal enfoque da bioinformtica
para os prximos anos ser integrar
esses dados de modo a permitir buscas transparentes atravs dos dados.
Fazer isso de forma robusta abrangendo todo o conjunto de dados um
desafio real.
Apesar do avano j feito,
necessrio continuar a pesquisa no
campo da genmica, principalmente
para microrganismos associados a
plantas economicamente importantes,
incluindo fungos, e buscar entender
as interaes hospedeiro-microrganismo ou planta-patgeno. No caso da
medicina, a necessidade atual por
dados clnicos bem estruturados e consistentes sobre grandes populaes.
Tais dados, que so difceis de coletar
e caros, sero crticos para ligar os

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

35

dados moleculares com o fentipo.


Embora exista um crescente nmero
de centros de bioinformtica, a maior
tendncia que ela esteja presente
nos centros de pesquisa e nas universidades, em cada departamento de
biologia ou biotecnologia, em cada
faculdade na rea das cincias biolgicas em todo o mundo. Todos os
grandes centros de pesquisa tero que
ter profissionais especializados em bioinformtica/biologia computacional.
Hoje consenso geral que essas instituies necessitam de pessoas com
esse entendimento em seus departamentos de biologia e necessitaro formar os seus estudantes de graduao
em biologia quantitativa em vez de
somente biologia experimental. Os
experimentos precisam ser feitos no
contexto do conhecimento corrente,
e os dados gerados precisam ser rapidamente armazenados e explorados
computacionalmente juntamente com
o universo de informao disponvel.
Nunca na histria da cincia as
informaes foram to democraticamente acessveis como hoje. Especialmente as informaes e ferramentas
disponibilizadas pela bioinformtica.
No importa quem e onde. O mesmo
tipo de informao pode ser acessada
por qualquer pessoa, em qualquer
lugar do mundo. Praticamente todas
as ferramentas de bioinformtica e
bancos de dados disponveis podem
ser dispostos de modo que possam
ser acessadas e utilizadas na web. Basta
fazer a pergunta correta e buscar a
resposta.
Concluso
O debate que est emergindo
atualmente se existe uma pletora
ou escassez de dados experimentais
proveitosos derivados pala plataforma
das micas. O grande desafio, no entanto, o que se pode fazer com esses dados. No h dvida de que a
tecnologia da informao precisa ser
tomada como parte integral do processo de descoberta pelos pesquisadores no campo da biologia. Este o
problema fundamental que precisa ser
resolvido pela bioinformtica, promovendo um profundo impacto no processo de descobertas biolgicas.
necessrio que ocorram discusses
36

freqentes entre todos os especialistas participantes de estudos relacionados, visando um emprego mais adequado da cultura cientfica dos participantes, j que, de modo simplificado, os bilogos querem entender
como os organismos funcionam e os
cientistas da computao querem fazer
ferramentas que resolvam problemas.
O estabelecimento de uma linguagem
comum entre os especialistas em diferentes reas, o monitoramento de quais
ferramentas so mais usadas e importantes para o escopo do estudo, uma
filosofia orientada para novas
descobertas, no orientada por dogmas, so recomendaes importantes
para o sucesso dos empreendimentos cientficos. Treinamentos constantes e workshops devem fazer parte
dos investimentos previstos nos projetos.
O bom entendimento entre os
pesquisadores de diferentes reas
fundamental. Por exemplo, os cientistas da computao devem ser pacientes com o bilogo, j que este
geralmente no sabe exatamente
onde quer chegar ou o que espera dos
dados (o que natural nos estudos
biolgicos). Deve ensinar pelo menos
os conceitos bsicos de computao
para estabelecer uma plataforma comum de comunicao, encorajar os
bilogos a mostrar como eles esto
realmente usando as ferramentas disponibilizadas e buscar sempre proporcionar o mximo de acesso aos dados. A reteno longa dos dados inibe
o esprito de comunidade. Por parte
do bilogo, espera-se que no espere
muito ou tente fazer as coisas sozi nho, fale com uma variedade de cientistas da computao, encontre aqueles mais interessados no seu problema, encontre aqueles com quem gosta de trabalhar, faa perguntas com
freqncia e logo que surjam, use uma
variedade de novas ferramentas, fazendo comentrios/sugestes assim
que puder e busque entender os desafios da computao para solucionar
problemas novos. A obteno de novos conhecimentos acelera quando
todos contribuem.
Agradecimentos
Aos colegas Dr. Francisco Prosdocimi, Dr. Newton Portilho Carneiro

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

e Dr. Alexandre Lima Nepomuceno


pela reviso crtica deste artigo.
Referncias
Bassingthwaighte JB. Strategies for the
physiome project. Ann Biomed
Eng. 2000, 28(8):1043-58. PMID:
11144666
Bernal A, Ear U, Kyrpides N. Genomes
OnLine Database (GOLD): a
monitor of genome projects worldwide. Nucleic Acids Res. 2001,
29(1):126-127. PMID: 11125068
Collins FS, Green ED, Guttmacher AE,
Guyer MS; US National Human
Genome Research Institute. A vision for the future of genomics research. Nature. 2003, 422(6934):83547. PMID: 12695777
Covert MW, Knight EM, Reed JL,
Herrgard MJ, Palsson BO.
Integrating high-throughput and
computational data elucidates
bacterial networks. Nature. 2004,
429(6987):92-6. PMID: 15129285
Fleischmann RD, Adams MD, White O,
Clayton RA, Kirkness EF, Kerlavage
AR, Bult CJ, Tomb JF, Dougherty
BA, Merrick JM, et al. Wholegenome random sequencing and
assembly of Haemophilus
influenzae Rd. Science. 1995,
269(5223):496-512. PMID:
7542800
Galperin MY. The Molecular Biology
Database Collection: 2004 update.
Nucleic Acids Res. 2004, 1;32
Database issue:D3-22. PMID:
14681349
Gao F, Foat BC, Bussemaker HJ.
Defining transcriptional networks
through integrative modeling of
mRNA expression and transcription
factor binding data. BMC
Bioinformatics. 2004, 18;5(1):31.
PMID: 15113405
Garavelli JS. The RESID Database of
Protein Modifications: 2003
developments. Nucleic Acids Res.
2003, 31(1):499-501. PMID:
12520062
Genomics and Its Impact on Science
and Society: The Human Genome
Project and Beyond. U.S.
Department of Energy Human
Genome Program. 2003. Disponvel http://www.ornl.gov/sci/
techresources/Human_Genome/

publicat/primer2001/index.shtml
Goodsell DS. Inside a living cell. Trends Biochem Sci. 1991, 16(6):203206. PMID: 1891800
Goto S, Okuno Y, Hattori M, Nishioka
T, Kanehisa M. LIGAND: database
of chemical compounds and reactions in biological pathways. Nucleic Acids Res. 2002, 30(1):402-4.
PMID: 11752349
Guerreiro N, Staedtler F, Grenet O,
Kehren J, Chibout SD. Toxicogenomics in drug development. Toxicol Pathol. 2003, 31(5):471-9.
PMID: 14692614
Hoersch S, Leroy C, Brown NP, Andrade MA, Sander C. The GeneQuiz
web server: protein functional
analysis through the Web. Trends
Biochem Sci. 2000, 25(1):33-35.
PMID: 10637611
James P. Protein identification in the
post-genome era: the rapid rise of
proteomics. Q Rev Biophys. 1997,
30(4):279-331. PMID: 9634650
Kanehisa M, Goto S, Kawashima S,
Okuno Y, Hattori M. The KEGG
resource for deciphering the genome. Nucleic Acids Res. 2004, 32
Database issue:D277-D280. PMID:
14681412
Kramer JA, Kolaja KL. Toxicogenomics: an opportunity to optimise
drug development and safety evaluation. Expert Opin Drug Saf. 2002,
1(3):275-86. PMID: 12904143
Kondro W. MOLECULAR BIOLOGY:
Consortium Tackles Mouse Regulome.
Science.
2004,
304(5673):942A. PMID: 15143247
Lefranc MP. IMGT, The International
ImMunoGeneTics Information System, http://imgt.cines.fr. Methods
Mol Biol. 2004, 248:27-49. PMID:
14970490
Lopez-Otin C, Overall CM. Protease
degradomics: a new challenge for
proteomics. Nat Rev Mol Cell Biol.
2002, 3(7):509-19. PMID:
12094217
Marshall A. Genset-Abbott deal heralds
pharmacogenomics era. Nat Biotechnol. 1997, 15(9):829-30. PMID:
9306389
Mewes HW, Amid C, Arnold R, Frishman D, Guldener U, Mannhaupt
G, Munsterkotter M, Pagel P, Strack N, Stumpflen V, Warfsmann J,
Ruepp A. MIPS: analysis and anno-

tation of proteins from whole


genomes.Nucleic Acids Res. 2004,
32 Database issue:D41-D44. PMID:
14681354
Novik KL, Nimmrich I, Genc B, Maier S,
Piepenbrock C, Olek A, Beck S.
Epigenomics: genome-wide study
of methylation phenomena. Curr
Issues Mol Biol. 2002, 4(4):111-28.
PMID: 12432963
Palsson B. In silico biology through
omics. Nat Biotechnol. 2002,
20(7):649-50. PMID: 12089538
Palsson B. The challenges of in silico
biology. Nat Biotechnol. 2000,
18(11):1147-50. PMID: 11062431
Pennisi E. Human genome. Reaching
their goal early, sequencing labs
celebrate. Science. 2003a,
300(5618):409. PMID: 12702850
Pennisi E. Human genome. A low number wins the GeneSweep Pool.
Science. 2003b, 300(5625):1484.
PMID: 12791949
Pennisi E. Bioinformatics. Gene counters struggle to get the right answer.
Science. 2003c, 301(5636):10401. PMID: 12933991
Prates MV, Bloch C. Peptdeos antimicrobianos. Biotecnologia Cincia e
Desenvolvimento. 2002, 29: 3036.
Roven C, Bussemaker HJ. REDUCE:
An online tool for inferring cisregulatory elements and transcriptional module activities from microarray data. Nucleic Acids Res.
2003, 31(13):3487-90. PMID:
12824350
Rubin GM, Yandell MD, Wortman JR,
Gabor Miklos GL, Nelson CR, Hariharan IK, Fortini ME, Li PW, Apweiler R, Fleischmann W, Cherry JM,
Henikoff S, Skupski MP, Misra S,
Ashburner M, Birney E, Boguski
MS, Brody T, Brokstein P, Celniker
SE, Chervitz SA, Coates D, Cravchik A, Gabrielian A, Galle RF,
Gelbart WM, George RA, Goldstein LS, Gong F, Guan P, Harris NL,
Hay BA, Hoskins RA, Li J, Li Z,
Hynes RO, Jones SJ, Kuehl PM,
Lemaitre B, Littleton JT, Morrison
DK, Mungall C, OFarrell PH, Pickeral OK, Shue C, Vosshall LB,
Zhang J, Zhao Q, Zheng XH, Lewis
S. Comparative genomics of the
eukaryotes. Science. 2000,
287(5461):2204-2215. PMID:

10731134
Sanford K, Soucaille P, Whited G, Chotani G. Genomics to fluxomics and
physiomics - pathway engineering. Curr Opin Microbiol. 2002,
5(3):318-22. PMID: 12057688
Schilling CH, Edwards JS, Palsson BO.
Toward metabolic phenomics:
analysis of genomic data using flux
balances. Biotechnol Prog. 1999,
15(3):288-95. PMID: 10356245
Schulz-Knappe P, Zucht HD, Heine G,
Jurgens M, Hess R, Schrader M.
Peptidomics: the comprehensive
analysis of peptides in complex
biological mixtures. Comb Chem
High Throughput Screen. 2001,
4(2):207-17. PMID: 11281836
Stalker J, Gibbins B, Meidl P, Smith J,
Spooner W, Hotz HR, Cox AV. The
Ensembl web site: mechanics of a
genome browser. Genome Res.
2004, 14(5):951-955. PMID:
15123591
Steuer R, Kurths J, Fiehn O, Weckwerth W. Observing and interpreting
correlations in metabolomic networks. Bioinformatics. 2003,
19(8):1019-26. PMID: 12761066
Weckwerth W, Loureiro ME, Wenzel
K, Fiehn O. Differential metabolic
networks unravel the effects of
silent plant phenotypes. Proc Natl
Acad Sci U S A. 2004. PMID:
15136733
Weinstein JN. Searching for pharmacogenomic markers: the synergy
between omic and hypothesis-driven research. Dis Markers. 2001,
17(2):77-88. PMID: 11673654
Werner T. Proteomics and regulomics:
the yin and yang of functional
genomics. Mass Spectrom Rev.
2004, 23(1):25-33. PMID:
14625890
Wright FA, Lemon WJ, Zhao WD, Sears
R, Zhuo D, Wang JP, Yang HY,
Baer T, Stredney D, Spitzner J,
Stutz A, Krahe R, Yuan B. A draft
annotation and overview of the
human genome. Genome Biol.
2001, 2(7):RESEARCH0025. PMID:
11516338
Zanzoni A, Montecchi-Palazzi L, Quondam M, Ausiello G, Helmer-Citterich M, Cesareni G. MINT: a Molecular INTeraction database. FEBS Lett.
2002, 513(1):135-40. PMID:
11911893

Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004

37

Você também pode gostar