Você está na página 1de 0

28 Biotecnologia Cincia & Desenvolvimento n.

32 - janeiro/junho 2004
Imagens cedidas pelo autor
As micas:
Integrando a bioinformao
O papel da bioinformtica em expanso
Dr. Eliseu Binneck
Consultor/Pesquisador na rea de Bioinformtica
Embrapa Soja, Londrina PR.
binneck@cnpso.embrapa.br
Fig.1: Plntula de caf cv Rubi, crescida in vitro e obtida a partir
de gema axilar de uma outra plntula similar a ela. Assim por
diante, outros clones podem ser obtidos
Como resultado dos crescentes
investimentos na rea da genmica nos
ltimos anos, a lista de sequncias de
genomas completos vem crescendo
a uma velocidade cada vez maior e
contribuindo com a disposio de um
volume de dados para acesso pblico
sem precedentes na histria. Hoje
(maio de 2004) so 190 genomas com-
pletos publicados, dos quais, 145 de
procariotos, 18 de archaea e 27 de
eucariotos. Alm disso, existem 900
genomas sendo seqenciados; 460 de
procariotos, 26 de archaea e 414 eu-
cariotos (http://www.genomesonline.org).
A Figura 1 apresenta a evoluo na
obteno de sequncias genmicas
completas de organismos de vida livre.
Um forte componente que tem
auxi l i ado tremendamente essa
evoluo da informao genmica so
as ferramentas de bioinformtica.
Atualmente os dados de sequncias
podem ser explorados com o uso de
poderosas ferramentas de busca,
acessando fontes de informao
eletrnica associada e integrada de um
modo inconcebvel h menos de uma
dcada, quando, em 1995, foi seqen-
ciado o primeiro genoma de um orga-
nismo de vida livre, Haemophilus in-
fluenzae (Fleischmann et al, 1995).
Muitas dessas ferramentas, como En-
sembl Genome Browser (http://
www.ensembl.org/) (Stalker et al,
2004), KEGG (http://www.genome.ad.jp/
kegg/kegg2.html) (Kanehisa et al,
2004), GeneQui z

(http: //
www.sander.ebi.ac.uk/gqsrv/submit/)
(Hoersch et al, 2000) e MIPS (http://
www. mi ps. bi ochem. mpg. de/)
(Mewes et al, 2004), so de domnio
pblico e possibilitam a obteno de
informaes organizadas, alm de in-
tegrarem ferramentas poderosas, pos-
sibilitando, por exemplo, a anlise
comparativa entre dados de diferentes
genomas.
Entretanto, em meio a esse clima
de novidade e excitao, parece ter
se estabelecido uma expectativa
excessiva sobre a aplicao de dados
de sequncias genmicas em busca
de inferncias biolgicas. Por outro
l ado, exi ste um crescente
reconhecimento e entendimento de
que tais metodologias baseadas na
seqncia de DNA tero que ser
complementadas pela anlise direta
dos produtos codificados pelos genes;
os RNAs e as protenas. Sabe-se que
conhecer a seqncia de um genoma
no garant e que as prot e nas
codificadas por esse genoma possam
Figura 1. Evoluo no nmero de genomas
sequenciados desde 1995 at abril de 2004.
Grfico produzido com permisso a partir de
informaes disponveis no banco de dados
GOLD (http://www.genomesonline.org) (Bernal
& Kyrpides, 2001).
ser imediatamente determinadas (por
exempl o, por homol ogi a com
protenas, j conhecidas, de outros
organismos). H uma estimativa,
baseada em genomas recm-
completos, que cerca de 30% do
contedo gnico de um organismo seja
de protenas especficas deste (Rubin
et al, 2000). claro que esse nmero
tende a diminuir medida que mais e
mai s genomas vo sendo
seqenci ados, mas most ra a
dificuldade em proceder-se a uma
anotao automatizada [confivel e
completa] dos genomas.
As predies computacionais a
partir de dados de seqncias so com-
plicadas e nem sempre geram resulta-
dos confiveis, principalmente no caso
de genomas mais complexos como o
genoma humano. Embora o trmino
do Projeto Genoma Humano tenha
sido comemorado em abril de 2003
Pesquisa
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004 29
(Collins et al, 2003; Pennisi, 2003a), o
nmero exato de genes codificados
pelo genoma ainda desconhecido e
podem ser necessrios anos ainda at
que tenhamos uma contagem confiv-
el do nmero de genes no genoma
humano.
A razo para tanta incerteza que
as predies so derivadas a partir de
diferentes mtodos computacionais e
programas de predio gnica. Alguns
programas detectam genes
procurando por parmetros diferentes
que definem onde um gene comea
e termina (predio ab initio).
Outros programas procuram por genes
pela comparao de segmentos de
sequncia com homologia com genes
e protenas conhecidos (predio
comparativa). Enquanto a predio ab
initio tende a sobrestimar o nmero
de genes pela contagem de qualquer
segmento que parea um gene, o
mtodo de predio comparativa
tende a subestimar este nmero, j que
limitado por reconhecer somente os
genes similares aos j conhecidos. A
definio de gene problemtica
porque pequenos genes podem ser
difceis de detectar, um gene pode
codificar para vrios produtos
proticos, alguns genes codificam para
RNA, dois genes podem se sobrepor,
e h muitas outras complicaes
(Pennisi, 2003b). Sendo assim,
mtodos computacionais por si s no
so suficientes para gerar o nmero
real e o conhecimento de todos os
genes de um genoma eucaritico
complexo; pelo menos com as
informaes existentes atualmente.
At que se gere um conjunto de dados
bastante informativo para as predies
comparativas, essas precisaro ser
verificadas por trabalho intensivo de
laboratrio antes de se chegar a um
consenso real.As ltimas estimativas a
partir de programas de predio
gnica sugerem que no genoma
humano devem existir 24500 ou
menos genes que codificam para
prote nas (Penni si , 2003c). A
estimativa do Ensembl (verso
20.34c.1, de 08-02-2004) de 23531
genes, incluindo 1744 pseudogenes
(http://www.ensembl.org/Homo_sapiens/)
(Stalker, 2004). Essa estimativa
muito menor do que aquelas das
anotaes iniciais, que contavam mais
de 70.000 genes (Write et al, 2001).
Considerando que os genes no
genoma humano apresentam um
tamanho mdio de 3000 pares de
bases, menos de 2% do genoma
codificam para protenas. Assim
mesmo, atualmente desconhecida
a funo de mais de 50% dos genes
descobertos.
Observando a i nesperada
equidade relativa no nmero de genes
de organismos bastante diferentes em
termos de complexidade (Quadro 1),
sugere-se que o fator que determina
a complexidade de um organismo no
est no nmero de genes, mas em
como as partes gnicas so usadas
para construir diferentes produtos em
um processo chamado splicing
alternativo. Outra razo para essa
maior complexidade so as milhares
de modi fi caes qu mi cas ps
traducionais que ocorrem nas protenas
e o repertrio de mecanismos de
regulao que controlam esses
processos (Genomics and Its Impact
on Science and Society: The Human
Genome Project and Beyond, 2003).
A verso 34.00 do banco de dados
RESID (http://pir.georgetown.edu/
pirwww/dbinfo/resid.html) (Garavelli,
2003) apresenta 339 modificaes
ps ou co-traducionais conhecidas em
protenas, modificaes essas que no
podem ser evidenciadas diretamente
a partir da seqncia gnica.
Informao versus ao
Em qualquer sistema biolgico, se
um trabalho realizado, quase sem-
pre a molcula responsvel por essa
ao uma protena. A vida depende
de milhares de protenas diferentes,
cujas estruturas so ajustadas para que
molculas individuais de protenas
combinem, numa preciso impressio-
nante, com outras molculas. Reaes
qumicas na clula dependem da com-
binao de enzimas com substratos e
essas so geralmente controladas por
outras molculas combinando com s-
tios especficos da protena. Estrutur-
as como os msculos dependem da
interao protena-protena, o controle
da expresso gnica depende da
combinao protena-DNA, o controle
hormonal depende da interao do
hormnio com receptores proticos,
o transporte atravs da membrana
envolve interaes soluto-protena,
protees imunes requerem a inter-
ao antgeno-anticorpo, atividades
neuronais requerem a interao sub-
stncia transmissora-protena. Estes
so apenas alguns exemplos do
universo quase infindvel de inter-
aes especficas em que as prote-
nas so envolvidas. Todas essas inter-
aes dependem do reconhecimento
exato de estruturas especficas nas
molculas das protenas envolvidas
(Goodsell, 1991). Neste contexto,
bancos de dados como o LIGAND
(http://www.genome.ad.jp/ligand/)
(Goto, 2002) possibilitam visualizar
cada uma entre o universo de reaes
qumicas conhecidas envolvendo a
interao de enzimas com metabli-
tos e outros compostos. Interaes
protena-protena, protena-DNA e
protena-RNA podem ser encontradas
em bancos de dados como BIND
Biomolecular Interaction Network
database (http://www.bind.ca/) (Bad-
er et al, 2003), DIP Database of In-
teracting Proteins (http://dip.doe-
Organismo Tamanho do Genoma (pares de bases) NEstimado de Genes
Homem (Homo sapiens) 3 bilhes 30.000
Rato (M. musculus) 2,6 bilhes 30.000
Mostarda (A. thaliana) 100 milhes 25.000
Roundworm (C. elegans) 97 milhes 19.000
Mosca das frutas (D. melanogaster) 137 milhes 13.000
Levedura (S. cerevisiae) 12,1 milhes 6.000
Bactria (E. coli) 4,6 milhes 3.200
Virus da AIDS (HIV) 9700 9
Quadro 1 Tamanho do genoma e nmero estimado de genes de diferentes organismos.
30 Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004
Fig.5: Fruto de mamo
(Carica papaya L. cv tainung
1) mostrando aspectos e
quantidade de sementes por
fruto
mbi.ucla.edu/) (Salwinski et al, 2004)
e MINT Molecular INTeractions
(http://cbm.bio.uniroma2.it/mint/)
(Zanzoni, et al, 2002). Informaes
sobre interao antgeno-anticorpo so
disponveis no IMGT International
Immunogeneti cs Database
(imgt.cines.fr) (Lefranc, 2004).
Cada vez mais se torna evidente
que a aplicao de dados de seqn-
cias de DNA, utilizando informaes
sobre a relao entre a seqncia de
DNA do gene e a funo protica, no
sustenta a atribuio infalvel de funo
para as protenas. Muitas evidncias
mostram a fragilidade das con-
stataes feitas puramente a partir de
seqncias genmicas, sugerindo que
(i) embora a seqncia genmica pos-
sa ser usada para predizer open read-
ing frames (ORFs), tais predies so
ainda muito grosseiras e passveis de
erro, principalmente em eucariotos.
(ii) O processamento do mRNA tem
uma influncia importante no produ-
to final da expresso gnica; o pro-
teoma. o caso do splicing alternati-
vo, em que, pela montagem de difer-
entes combinaes de exons, um pr-
mRNA d origem a dois ou mais mR-
NAs diferentes, que codificam para
produtos proticos diferentes. Como
resultado, as modificaes advindas do
processamento do mRNA permitem
que seja produzida uma variedade de
protenas superior ao nmero de genes
do genoma. (iii) Existe uma enorme
diversidade de modificaes ps-tra-
ducionais que uma protena pode so-
frer, influenciando a sua funo, loca-
lizao celular e atividade. A infor-
mao da seqncia de DNA ainda no
d um discernimento claro sobre mod-
ificaes ps-traducionais a que cada
produto protico est sujeito, sendo
difcil, se no impossvel, estabelecer
um nmero de protenas produtos
que cada gene codifica. (iv) Os mecan-
ismos de controle da expresso gni-
ca envolvem uma rede complexa e
varivel de interaes moleculares,
cujo entendimento ainda bastante
rudimentar. Esses mecanismos no so
prontamente evidentes a partir do
conhecimento da seqncia de DNA
do genoma, havendo ainda grandes
limitaes em se utilizar a informao
da seqncia de DNA com o intuito
de conhecer o contedo e a dimani-
cidade das protenas codificadas por
um determinado genoma.
Fotografia versus filme
Certos grupos de protenas inter-
agem entre si para realizar determi-
nados trabalhos celulares. Um exem-
plo bem tpico so as protenas orga-
nizadas em vias metablicas como a
gliclise, o ciclo de Krebs, e outras,
em que os produtos gnicos chama-
dos enzimas precisam trabalhar em
harmonia. Outro exemplo bem con-
hecido o caso das protenas estru-
turais que devem estar juntas e orga-
nizadas precisamente para exercer a
sua funo, como exemplo, os com-
ponentes de uma unidade ribossom-
al, as histoprotenas que so essenci-
ais para manter a estrutura da croma-
tina etc. Desse modo, em estudos de
expresso gnica habitual assumir
que grupos de genes cujos modelos
de expresso so similares entre si,
sejam provavelmente funcionalmente
relacionados.
Um problema com as tcnicas de
agrupamento de dados de expresso
gnica (ESTs, SAGE, Microarrays), no
entanto, que elas so baseadas na
suposio de que os genes que apre-
sentam modelos de expresso simi-
lares so de fato relacionados funcio-
nalmente, isto , eles tm funes que
so relacionadas. Essa interpretao
geralmente leva a erros na tentativa
de entender a relao real entre os
genes [atravs dos seus produtos].
Existem razes para pr em dvi-
da essa suposio: primeiro, ainda
muito inconsistente o conhecimento
de quo discretamente trabalham os
grupamentos funcionais de genes na
maquinaria celular. Pode ser que
produtos gnicos individuais tenham
tantos papis diferentes em diferentes
circunstncias, que vrios deles par-
ticipem de papis essenciais em mais
de uma funo. Por exemplo, os pro-
cessos de defesa contra estresses biti-
cos (originados do ataque de agentes
patognicos), ou estresses ambientais,
podem ser extremamente complex-
os e envolverem diferentes mecanis-
mos atuando em conjunto. Segundo,
o termo relacionados funcional-
mente por si s mal especificado.
Se o modelo de expresso de um
gene similar ao de um outro gene,
isso pode significar vrios tipos de re-
lacionamento, desde dois genes ten-
do produtos que interagem fisica-
mente, um gene que codifica para
um fator de transcrio para outro
gene, dois genes ambos com se-
qncias promotoras ligadas por re-
pressores que so liberados quando
um receptor nuclear ativado, mes-
mo que os dois genes tenham funes
muito distantes. claro que existe um
nvel de abstrao no qual todos os
genes so funcionalmente relaciona-
dos no trabalho de manter a clula viva
e produzindo todos os componentes
necessrios para o organismo como um
todo. Mas abaixo desse nvel de ab-
strao existem muitos alternativos,
pela sua natureza, favorecendo a
definio de agrupamento. Portanto,
perfeitamente questionvel a atri-
buio indistinta de que similaridade
em expresso corresponde similar-
idade em funo.
Alm disso, o que constitui real-
mente um modelo de expresso si-
milar ainda pouco preciso, ou pelo
menos existem mltiplas definies
alternativas. Por exemplo, similaridade
poderia significar ter um modelo de
mudana similar ao longo do tempo.
Pode significar tambm nveis absolu-
tos de expresso a qualquer dado
momento, ou pode significar a per-
feita oposio, mas bem coreografa-
da no modelo de expresso. Pensan-
do em mtodos comparativos, qual
medida de discrepncia exatamente
escolhida para medir os modelos de
expresso influenciar o tipo de agru-
pamento funcional esperado. Mto-
dos confiveis e exeqveis em esca-
la genmica para medio absoluta da
expresso gnica precisam ainda ser
desenvolvidos.
Corretamente interpretados ou
no, dados de expresso gnica vm
sendo acumulados em volume e var-
iedade cada vez maior. Um ensaio iso-
lado de hibridao com DNA Microar-
rays, por exemplo, fornece na me-
lhor das hipteses uma viso esttica
do nvel de expresso comparativo en-
tre os genes amostrados. Seria como
a fotografia do evento. Mas dificil-
mente uma fotografia consegue mos-
trar todo o panorama. Uma nova fo-
tografia, tomada de um outro ngulo,
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004 31
Fig.6: Germinao de sementes de mamo sob condies in vitro, aps
ter-se retirado a sarcotesta e realizado sua assepsia
pode mostrar nuances que no havi-
am sido captadas anteriormente, e
assim por diante. Conhecer as
mudanas diferente de percorrer o
caminho que leva aos estados difer-
enciados. Por exemplo, entender a
trajetria da ocorrncia de vrios RNAs
mensageiros em vez de conhecer
apenas valores absolutos ou compar-
ativos em um dado momento, pro-
porciona muito mais informao so-
bre a operacionalidade do sistema.
A vida essencialmente dinmi-
ca. Apenas o filme, isto , a anlise
dinmica do sistema, pode dar supor-
te para o entendimento completo dos
processos biolgicos. E a est o
grande desafio da bioinformtica. A
integrao comparativa dos dados
precisa ser realizada in silico, trans-
formando o conjunto de imagens es-
tticas no filme da vida.
As micas
Antes da era da bioinformtica,
somente duas maneiras de fazer ex-
perimentao em biologia eram dis-
ponveis: utilizando um organismo vivo
(tambm chamado in vivo) ou em
um sistema artificial (tambm chama-
do in vitro). Seguindo essa analogia,
podemos dizer que a bioinformtica
de fato a biologia in silico. A bioin-
formtica veio para facilitar o uso de
computadores no sentido de organizar
e analisar integradamente uma mon-
tanha de dados complexos e variados,
possibilitando enfrentar o desafio de
decifrar componentes importantes
dentro de um universo crescente de
informaes. Isso somado ao desen-
volvimento de equipamentos podero-
sos para a miniaturizao e automao
da aquisio de dados biolgicos em
A genmica se caracteriza pelo estudo dos genes e suas funes. A sua chegada, com o projeto genoma humano
no final da dcada de 1980, alavancou toda a revoluo atual no campo da biologia. Muitas expectativas e investimentos
tm sido empregadas na genmica, visando aplicaes nas reas da indstria farmacutica, agricultura, produo de
energia e proteo do meio ambiente. Mas a determinao da seqncia completa de vrios genomas no o final da
histria. apenas o comeo, principalmente pelo fato de que mecanismos biolgicos no podem ser inferidos simplesmente
a partir do conhecimento da seqncia sem o auxlio de outras estratgias de estudo, as micas em geral.
Genmica comparativa. Esse novo ramo da genmica, que vem se tornando cada vez mais comum dada a
quantidade de seqncias de genomas sendo produzidas, tem o objetivo de comparar todo o contedo de DNA do
genoma de um organismo particular com outros genomas j conhecidos. Atravs dessa anlise pode ser possvel
identificar diferenas, tanto no contedo gnico quanto no-gnico, que podem ser responsveis por importantes
propriedades fenotpicas ou evolutivas, como patogenicidade, reaes a condies ambientais adversas, proximidade
taxonmica entre grupos e at mesmo a aquisio (ou manifestao?) de determinados comportamentos individuais.
larga escala, deu campo para o surgi-
mento de uma lista de novos termos,
que no pra de crescer. Estamos en-
trando na era das micas (Pals-
son,2002). Com centenas de milhares
de protenas para identificar, correla-
cionar e entender, por exemplo, no
suficiente estudar um gene, um
produto gnico ou um processo de
cada vez. Por outro lado, estudar em
larga escala um conjunto de molcu-
las com o objetivo de entender mecan-
ismos celulares, dificilmente podem
responder questes interessantes sem
a assistncia da informao gerada pela
pesquisa tradicional dirigida por hip-
teses. Por isso, os dois tipos de cin-
cia atualmente disponveis, as micas
e as pesquisas dirigidas por hipteses
(Weinstein, 2001), so sinrgicas e
devem ser utilizadas de modo a se
complementarem.
O produto inicial da expresso gnica em um organismo conhecido como transcriptoma e se caracteriza por
uma coleo de molculas de RNA mensageiro cuja informao biolgica requerida pela clula em um determinado
momento. Essas molculas de mRNA so sintetizadas a partir de genes que codificam protenas e, assim, direcionam a
sntese do produto final da expresso gnica, o proteoma, que especifica a natureza das reaes bioqumicas que a
clula est apta a realizar. Um ponto importante a notar que o transcriptoma nunca sintetizado de novo, isto , no
comea do zero. Cada clula recebe parte de seu transcriptoma materno quando formada pela diviso celular, e
depois responsvel pela manuteno e adaptao do transcriptoma conforme os diferentes estgios de sua vida e o
tipo de diferenciao tomado.
Como regra geral, RNAs mensageiros bacterianos tm meias-vidas de no mais de poucos minutos e em eucari-
otos a maioria dos mRNAs so degradados poucas horas aps a sua sntese. O turnover rpido significa que a com-
posio do transcriptoma no fixa e pode ser rapidamente reestruturada pela mudana no nvel de sntese de mRNAs
especficos. Assim, a transcrio no resulta na sntese do transcriptoma, mas apenas o mantm pela reposio de
mRNAs que foram degradados, e promove mudanas na composio do transcriptoma ligando ou desligando os difer-
entes genes ou conjuntos de genes.
Avanos tecnolgicos baseados na PCR, intenso sequenciamento de cDNA e sntese de novo de cidos nuclicos,
tm contribudo para o desenvolvimento de tcnicas de quantificao de mRNA em larga escala, em muitos casos em
escala genmica, possibilitando que centenas ou milhares de genes sejam estudados em paralelo em vez de um gene
de cada vez. Mtodos como Differential Display (DD), Serial Analysis of Gene Expression (SAGE) e DNA array
hibridization ou DNA microarray, todos trouxeram benefcios significativos em relao ao Northern blotting em
termos de sensibilidade e nmero de ensaios. Entre essas tecnologias, a que vem ganhando preferncia para estudar a
composio de um transcriptoma, e fazer comparaes entre diferentes transcriptomas, a tcnica de DNA microarray,
Transcriptmica (ou genmica funcional)
Genmica
32 Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004
que se baseia na hibridao em paralelo de cidos nuclicos. Experimentos de expresso gnica com DNA microarrays
vm sendo largamente utilizados para explorar o modelo de expresso simultnea e em paralelo de milhares de genes.
Isso requer ferramentas poderosas de correlao computacional.
Um DNA microarray consiste de uma coleo de sequncias parciais de genes (normalmente cDNAs) que so
espotados individualmente em locais especficos de uma lmina. Essas sequncias geralmente variam de 500 a 4000
bases (idealmente 500 a 2000 bases) e podem ser escolhidas a partir de diferentes regies do gene dependendo do
objetivo do projeto. Uma variao da tcnica, chamada DNA chip, baseada na deposio ou sntese in situ de
oligonucleotdeos para a gerao de alvos. Esses chips contm oligmeros curtos variando de 25 a 80 bases como
seqncias-alvo. Enquanto essas sequncias curtas podem conferir alta sensibilidade, elas podem apresentar baixa
especificidade de ligao comparada com DNA microarrays, uma vez que as seqncias so curtas e usualmente no
representam genes conhecidos.
O uso de DNA microarrays para o estudo do modelo de expresso gnica baseia-se em dois princpios. Primeiro,
considera-se que cada gene expresso ou no e as diferenas no seu nvel de expresso em uma clula ou tecido, em
determinado momento, so um reflexo de quais mRNAs esto presentes e a sua abundncia, e; segundo, as fitas de
DNA podem hibridar-se com seqncias complementares formando uma molcula estvel em fita dupla.
Tipicamente, a primeira face dos dados experimentais de DNA microarrays uma lista de genes/sequncias ou
nmeros de identificao e o seu perfil de expresso. Modelos de correlao dentro do conjunto massivo de dados de
pontos no so bvios por uma inspeo visual. Diferentes algoritmos de agrupamento computacional precisam ser
usados simultaneamente para reduzir a complexidade dos dados e para encurtar a relao entre genes de acordo com
o seu nvel de expresso ou mudanas nos nveis de expresso. Problemas relacionados com as tcnicas de agrupamen-
to so considerados na seo anterior.
Uma das maiores vantagens da utilizao da tcnica de DNA microarray, comparando-a com outros mtodos,
a facilidade da anlise simultnea e em paralelo de um grande nmero de genes e de um grande nmero de amostras.
Deve ser notado, entretanto, que todas essas tcnicas usadas para a quantificao de mRNA proporcionam um nvel de
informao emprica e no uma condio estvel absoluta. Alm disso, sabe-se que a deteco de uma diferena na
abundncia de um mRNA especfico entre duas amostras biolgicas no necessariamente refletida por uma diferena
quantitativa equivalente no nvel de abundncia da protena, o que muitas vezes est implcito nos estudos.
Existem, portanto, limitaes intrnsecas da tcnica, entre as quais (i) a abundncia do mRNA nem sempre bem
correlacionada com a abundncia da protena, (ii) a sensibilidade e variao dinmica dos mtodos existentes so tais
que os mRNAs menos abundantes, potencialmente codificando as protenas regulatrias mais importantes, no so
facilmente medidos como acontece com os mRNAs mais abundantes, e (iii) a atividade das protenas codificadas pelos
mRNAs regulada a vrios nveis aps a sua expresso. Por exemplo, a localizao subcelular e/ou a extenso em que
as protenas so ps-traducionalmente modificadas, no so reveladas pela medio da abundancia do mRNA.
Para entender a funo de todos os genes em um organismo, necessrio conhecer no s quais genes so
expressos, quando e onde, mas tambm quais so os produtos da expresso e em que condies esses produtos
(protenas) so sintetizados em certos tecidos. A protemica tenta descrever o conjunto completo de protenas produto
da expresso do genoma (James, 1997), e fornece informaes importantes para complementar os estudos de tran-
scriptmica e metabolmica.
Os organismos podem sintetizar muitos milhares de protenas ao mesmo tempo, e a diversidade potencial de
tipos de protenas no proteoma certamente excede o nmero estimado de genes no genoma. Isso ocorre porque os
produtos de um gene podem diferir devido a splicing alternativo e uma variedade de modificaes ps-traducionais
possveis, como apresentado acima. O crescente interesse no campo da protemica vem concentrando esforos para
acelerar o desenvolvimento e implementao de estratgias mais apropriadas para a anlise de expresso e funo de
protenas em escala genmica.
Esse interesse tem ocorrido, em parte substancial, devido ao sucesso dos projetos de sequenciamentos genmi-
cos, considerando que a realizao bem sucedida desses projetos tem resultado em uma apreciao mais extensa de
que, por si s, eles revelam menos do que se esperava sobre a biologia do organismo. Os dados de sequncias
genmicas proporcionam uma plataforma essencial para um conhecimento mais amplo das estratgias experimentais
complementares que daro suporte caracterizao dos genes contidos nos genomas. A utilizao integrada dessas
ferramentas possibilitar o entendimento de como os produtos desses genes atuam conjuntamente para regular as
atividades do organismo.
A protemica depende da extrao, separao, visualizao, identificao e quantificao das protenas presentes
em um organismo ou tecido, em um determinado momento. Todos esses estgios tm limitaes. Portanto, atualmente,
impossvel descrever o proteoma completo de um organismo.
Atualmente, o ponto de partida para muitas tentativas na investigao das mudanas na expresso protica
envolve a resoluo das protenas de uma mistura complexa por eletroforese 2-D e a sua subsequente identificao
usando mtodos analticos cada vez mais precisos e poderosos. Eletroforese 2-D, complementada com HPLC, permite
Protemica
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004 33
separar e purificar vrios milhares de protenas extradas de um tecido ou clulas, em um determinado momento ou
condio. Embora a eletroforese 2-D apresente significantes limitaes, parece ser o melhor mtodo at o momento
para resolver um grande nmero de protenas de uma mistura, ao mesmo tempo em que permite acessar as mudanas
no nvel de expresso e a purificao de protenas chave para subsequente caracterizao.
Avanos relativamente recentes na caracterizao de protenas tm surgido da automatizao de mtodos como
matrix-assisted laser desortion-ionization (MALDI) e eletrospray ionization (ESI) mass spectrocopy (MS) para se
obter o fingerprinting de massa e sequenciamento de peptdeos.
A metabolmica uma rea da genmica funcional que estuda as mudanas na expresso de pequenas molculas
orgnicas, conhecidas como metablitos, em sistemas biolgicos. Ela promete complementar a genmica por permitir
avaliaes objetivas do fentipo (Weckwerth, et al, 2004).
Grande importncia vem sendo dada para a combinao de dados de metabolmica com dados de expresso
gnica e protemica. A metabolmica ajudar na revelao de como os gentipos so associados com os fentipos e
fazer simulaes de mecanismos celulares em larga escala. Em uma escala maior, o fenomenoma (Schilling et al, 1999;
Palsson, 2000) ajudar a materializar mtodos de anlise com a melhor tecnologia para estudos [e interpretaes] do
metaboloma.
O fenomenoma requer uma organizao de descobertas biolgicas, quantificando e identificando todos os
metablitos em um complexo de amostras biolgicas, rpida e simultaneamente. Isso deve ser obtido sem qualquer
seleo a priori dos metablitos de interesse, para evitar tendenciosidades. Softwares de bioinformtica so necessrios
para organizar e facilitar a visualizao dos dados de modo a auxiliar na sua interpretao (Steuer et al, 2003; Covert et
al, 2004). Os softwares devem combinar dados obtidos por DNA microarrays, protemica e metabolmica numa
mesma visualizao.
Essa tecnologia permitir, em ltima instncia, a integrao e correlao das mudanas globais no metabolismo e
expresso gnica. Uma anlise quantitativa de todos os metablitos em uma clula pode ajudar no entendimento de
problemas como, por exemplo, os efeitos pleiotrpicos, em que um nico gene determina um nmero de caractersticas
no relacionadas. Problemas assim podem ser mais bem entendidos se uma alterao detectada no contedo de um
metablito, utilizado em vias metablicas diferentes, estiver relacionado com uma mutao no gene ou a sua sobre-
expresso ou inibio.
O Quadro 2 mostra a evoluo
das principais novas reas da pesquisa
biolgica no ltimos anos, baseada no
nmero de ocorrncias de termos re-
lacionados na literatura cientfica.
Alm dessas, uma variedade de
micas vem surgindo e uma sobre-
posio de propsito inevitvel.
Entre outras tantas, a farmaco-
genmica (Marshall, 1997) visa en-
tender a interao da constutuio
gentica de um indivduo com a res-
posta a drogas.
A fisimica (Sanford et al, 2002)
se dedica a fazer uma descrio quan-
titativa das funes fisiolgicas de um
organismo intacto. necessrio pre-
di- zer o fentipo a partir do genti-
po, mas isso difcil por causa das in-
fluncias do ambiente e as circunstn-
cias do crescimento, desenvolvimen-
to e doenas. O objetivo obter o
um discernimento de toda a fisiologia
de um organismo, incluindo as vias
metablicas e todas as molculas e
suas interaes, que fazem o organis-
mo completo. Uma das primeiras ini-
ciativas nesse campo o Projeto Fisi-
oma (http://physiome.org/), cujo
principal objetivo entender o organ-
ismo humano, descrevendo quantita-
tivamente a sua fisiologia e patofisio-
logia, utilizando inclusive informaes
provenientes dos fisiomas de outros
organismos, para melhorar a sade
humana (Bassingthwaighte, 2000).
A regulmica (Werner, 2004)
o estudo das instrues bioqumicas
da rede de interao gnica que con-
trola os mecanismos de regulao da
expresso dos genes para fazer todos
os tipos de clula necessrios para
construir organismos completos (Kon-
dro, 2004; Gao et al 2004; Roven &
Bussemaker, 2004).
A peptidmica se dedica a estu-
dar peptdeos pequenos (0,5 a 15
kDa), como hormnios, citoquinas,
fatores de crescimento, venenos, toxi-
nas, peptdeos antimicrobianos etc.
Essas molculas tm papel fundamen-
tal em muitos processos biolgicos
(Schulz-Knappe et al, 2001; Prates &
Bloch, 2002).
A degradmica a aplicao de
dados gerados pela genmica e pro-
temica para identificar as proteases
Palavra chave 1988 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 Abril2004
Genomics 3 12 23 38 52 64 90 130 208 386 678 1263 2081 3104 4199 4660
Comparative genomics 4 8 18 37 69 126 192 291 427 503
Functional genomics 10 46 131 277 480 736 1016 1127
Transcriptomics 1 3 7 23 41 63
Proteomics 1 20 67 277 631 1254 2022 2444
Pharmacogenomics 1 11 37 136 249 472 702 795
Metabolomics 2 7 28 59 81
Peptidomics 5 8 18 23
Bioinformatics 3 12 20 44 78 144 230 420 657 1058 1604 1852
Quadro 2 Nmero de ocorrncias de referncias no PubMed (http://www.ncbi.nlm.nih/) em algumas novas reas da pesquisa
biolgica, desde 1998. Busca limitada para os campos Ttulo e Abstract.
Metabolmica
34 Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004
PESQUISA
e os seus substratos em escala genmi-
ca, para descobrir novos papis para
proteases in vivo. O objetivo facili-
tar a identificao de novos alvos para
o desenvolvimento de frmacos visan-
do o tratamento de doenas (Lopez-
Otin & Overall, 2002).
A epigenmica busca esclarec-
er como o genoma funciona como um
todo. Ela combina a gentica com o
ambiente para buscar uma compreen-
so dos sistemas biolgicos complex-
os como a plasticidade do genoma.
Embora todas as clulas nucleadas de
um organismo levem o mesmo
genoma, elas expressam diferentes
genes em diferentes momentos e
condies. Esses mecanismos de reg-
ulao da expresso gnica so com-
plexos, e um dos principais fatores
envolvidos so as mudanas epi-
genticas resultantes da metilao
diferencial do genoma. Da, diz-se que
resultam diferentes epigenomas. Al-
guns estudos tm demonstrado o en-
volvimento da metilao do DNA num
processo chamado imprinting
genmico, que controla a expresso
de alguns genes em mamferos, po-
dendo ter efeito no surgimento de
doenas, especialmente o cncer.
Novik et al (2002) apresenta uma re-
viso sobre o assunto.
A toxicogenmica (Kramer &
Kolaja, 2002 e Guerreiro et al, 2003)
marca um novo paradigma no desen-
volvimento de drogas e anlise de
risco, que promete gerar uma enorme
quantidade de informao na direo
de aumentar o entendimento do
mecanismo molecular que leva tox-
icidade da droga e eficincia. espe-
rado que a toxigenmica seja mais e
mais integrada com todas as fases do
processo de desenvolvimento de dro-
gas, particularmente na toxicologia
mecanstica e preditiva, e descobri-
mento de biomarcadores, buscando
identificar polimorfismos no DNA rel-
acionados com a suscetibilidade indi-
vidual toxicidade em relao a uma
determinada droga. O objetivo a
seleo de candidatos no sentido de
ajudar a desenvolver e utilizar drogas
que produzam menor toxicidade.
Antes e depois da genmica:
a velha e a nova biologia
Depois do descobrimento da
dupla fita de DNA, do cdigo genti-
co, enzimas de restrio, PCR e tan-
tos avanos na biologia molecular du-
rante a segunda metade do sculo
passado, na ltima dcada experien-
ciamos uma nova revoluo no cam-
po da biologia com a era da genmi-
ca, e com ela muitas outras micas,
como apresentado acima. Nesse con-
texto, muitas perguntas surgiram e
permanecem ainda sem respostas
satisfatrias, como: quais os impac-
tos da genmica nos projetos de
pesquisa nas diversas reas das cin-
cias biolgicas? o mtodo cientfico
ainda relevante? a bioinformtica
uma disciplina separada? como pode
ser melhorada a comunicao entre
as culturas cientficas atuais e a tec-
nologia da informao (IT) para solu-
cionar a necessidade da integrao
dos dados disponveis, que apresen-
tam-se em fontes e formatos to vari-
ados? perguntas como essas so
chaves para as aes futuras nas bio-
cincias.
Fazendo um paralelo entre a
velha biologia e a situao atual, po-
demos notar que o predomnio de
pesquisadores mais ou menos inde-
pendentes e profundamente espe-
cializados em um domnio estreita-
mente focado, no adequado para
a nova cincia cada vez mais integra-
da e ampla. Os estudos voltados para
um gene ou uma funo de cada vez
do lugar para a anlise quantitativa
de centenas de milhares de genes, e
no mais focalizando apenas uma es-
pcie, mas com uma abordagem de
integrao comparativa de dados in-
terespecficos. Os grandes investi-
mentos voltados para enfoques
cientficos muitas vezes pouco
abrangentes e hipteses dirigidas pela
pesquisa so substitudos pela au-
tomao e miniaturizao, reduzindo
o custo e aumentando a velocidade
da coleta de dados. A necessidade da
busca de ferramentas computacionais
bsicas e somente para analisar con-
juntos de dados suplantada pela r-
pida disponibilidade de bancos de da-
dos, grandes demais para um pes-
quisador conseguir analisar os dados
sozinho. E, assim, onde esto as hip-
teses? poderamos caracterizar essa
revoluo como uma grande expe-
dio para o acabamento da cincia
da vida? quais so os impactos para a
sociedade?
Embora se tenha observado uma
grande mudana no tipo e quantidade
de dados obtidos, e a validade do
mtodo cientfico ser colocado em
xeque, o plano clssico no curso da
cincia continua sendo vlido. Os da-
dos geram informao, que gera no-
vos conhecimentos, que proporcio-
nam o caminho para novas descober-
tas. No final, algumas vezes, paradig-
mas so transpostos (Figura 2). A prin-
cipal diferena que at algumas
dcadas atrs, esse processo requeria
somente poder de raciocnio, lpis e
papel. Agora requer tecnologia com-
putacional sofisticada. Para isso, os
centros de pesquisa e universidades
cada vez mais tero que ter seus prp-
rios grupos de bioinformtica, manten-
do equipes multidisciplinares com ativ-
idades que de um lado promovam
uma melhor explorao dos dados bi-
olgicos atravs de ferramentas de
bioinformtica e, por outro lado, as
questes geradas pelos dados biolgi-
cos obtidos possibilitem melhorar as
ferramentas de bioinformtica. A bio-
informtica ser cada vez mais impor-
tante em termos de integrao da in-
formao, buscando impulsionar a
aquisio de conhecimento sobre os
sistemas biolgicos para a gerao de
novas sadas para problemas na agri-
cultura, medicina, produo de ener-
gia e conservao do meio ambiente.
O papel da bioinformtica
em expanso
Os projetos genoma transforma-
ram a biologia em muitos sentidos, mas
Figura 2. Ilustrao do pro-
cesso de obteno de novas
descobertas nos diversos
campos da cincia.
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004 35
o mais impressionante avano foi a
emergncia da bioinformtica e o tre-
inamento dos cientistas em tecnolo-
gias modernas de pesquisa. Inicial-
mente a bioinformtica teve como
aplicao principal facilitar o manuseio
da grande quantidade de dados gera-
dos pelos projetos genoma, como a
montagem de contigs e fechamento
de seqncias genmicas, alm de dar
suporte para outras estratgias exper-
imentais no campo da biologia mo-
lecular.
De l para c, muitas informaes
foram disponibilizadas em bancos de
dados pblicos de seqncias gnicas,
protenas, estruturas de macromolcu-
las, perfil metablico, filogenia e ou-
tros, cujo valor ainda no pode sequer
ser estimado. Hoje no mais poss-
vel avanar em biotecnologia sem a
integrao da tecnologia da infor-
mao com a tecnologia experimen-
tal. As abordagens de estudos biotec-
nolgicos atualmente buscam resol-
ver questes especficas, optando-se
normalmente por fazer uma anlise
computacional inicial com a utilizao
dessas informaes para direcionar e
selecionar as estratgias experimen-
tais, com considervel economia finan-
ceira e de tempo, sem considerar a
efetividade de tais procedimentos na
acelerao da obteno dos resultados
e descobertas cientficas.
Alm disso, muitas descobertas
esto sendo feitas simplesmente pela
anlise sistematizada dessas fontes de
dados, que no param de crescer tan-
to em volume como em complexi-
dade e variabilidade. A tendncia atu-
al para descobertas cientficas e sn-
tese sendo dirigidas pela informao
emergindo intrinsecamente a partir da
biologia em si e a partir da diversidade
e heterogeneidade das observaes
experimentais. Um projeto tpico de
pesquisa pode comear com a coleo
de sequncias genmicas conhecidas
ou no conhecidas. Para sequncias
no conhecidas, pode-se conduzir uma
busca em bancos de dados por sequn-
cias similares ou usar algoritmos com-
putacionais procurando predizer as
suas possveis identidades e funes.
Isso requer o acesso verso mais
atual da coleo de dados, em bancos
de dados mundiais, e as ferramentas
fundamentais da bioinformtica agora
so cada vez mais parte dos mtodos
experimentais. Entretanto, essas infor-
maes esto espalhadas em mltiplas
fontes, impossibilitando que os cien-
tistas obtenham direta e eficiente-
mente a informao requerida para
converter os dados complexos e het-
erogneos em dados teis, informao
organizada e sistematizada conforme
as linhas de pesquisa especficas.
Nesse ambiente, para responder
uma simples questo pode ser
necessrio acessar vrias fontes de
dados e utilizar ferramentas de an-
lise sofisticadas, como alinhamento de
sequncias, agrupamento, modela-
gem molecular etc. Enquanto a inte-
grao dos dados uma rea de pes-
quisa dinmica, necessidades espec-
ficas dos biocientistas tm levado ao
desenvolvimento de numerosos siste-
mas que acabam desconectando o
acesso aos dados em um ambiente
direcionado por resultados. O resulta-
do o crescente nmero de bancos
de dados e web sites representando
uma coleo confinada de dados, gov-
ernada por sistemas prprios de ger-
enciamento e formatos particulares de
input e output dos dados, apresen-
taes grficas dos resultados, e pro-
blemas srios de compatibilidade e
interoperabilidade com outros siste-
mas. Uma evidncia disso o nme-
ro crescente de novos bancos de da-
dos relatados a cada ano na edio de
janeiro da Nucleic Acids Research
(http://nar.oupjournals.org/). A edio
atual lista 548 bancos de dados, 162 a
mais em relao ao ano anterior (Gal-
perin, 2004). Boa parte desses ban-
cos ainda so construdos com en-
foques extremamente limitados para
aplicaes restritas, sem a preocu-
pao com relao compatibilidade
e troca de informaes com outros
sistemas. Adaptaes so lentas e
muitas vezes difceis de implementar
quando a filosofia bsica do banco pre-
cisa ser mantida.
O acesso a esses dados precisa
melhorar em termos de eficincia,
velocidade e facilidade. Para facilitar
o entendimento dos processos biolgi-
cos, necessrio fazer novos arranjos
aos recursos de dados disponveis. Por
exemplo, o que se faz inicialmente
em uma rota metablica, uma rede de
i nteraes mol ecul ares etc. ,
necessrio generalizar para outros
sistemas biolgicos; a partir de E. coli
para levedura, e chegar biologia de
organismos mais complexos, como o
homem, animais e plantas economi-
camente importantes. Trabalhar toda
essa informao conjuntamente fun-
damental para a gerao de novos in-
sights. O rpido crescimento do vo-
lume de dados um desafio para cada
um, e com a produo de dados mais
diversos e em larga escala (por e-
xemplo, dados de DNA microarrays)
esse cresci mento est apenas
comeando.
As atividades de bancos de da-
dos e desenvolvimento de algoritmos
computacionais precisam estar integra-
das para produzir uma infra-estrutura
de informao coesiva delimitando
toda a biologia. Para isso necessrio
o desenvolvimento de ferramentas
para disseminar e analisar massivas
quantidades de dados, inclusive lite-
ratura, e a construo de comunidades
de bancos de dados baseadas em
princpios operacionais padronizados
e com padres interoperacionais.
Muitos dos problemas da bioin-
formtica so genricos, por isso
solues em um domnio podem ser
naturalmente aplicveis para outros.
O entendimento da informao mo-
lecular at a clula, rgo e o sistema
biolgico do organismo ser o maior
desafio (fenomenoma). A passagem
do gentipo para o fentipo requer-
er um novo conjunto de ferramentas
computacionais altamente robustas. O
principal enfoque da bioinformtica
para os prximos anos ser integrar
esses dados de modo a permitir bus-
cas transparentes atravs dos dados.
Fazer isso de forma robusta abrangen-
do todo o conjunto de dados um
desafio real.
Apesar do avano j feito,
necessrio continuar a pesquisa no
campo da genmica, principalmente
para microrganismos associados a
plantas economicamente importantes,
incluindo fungos, e buscar entender
as interaes hospedeiro-microrganis-
mo ou planta-patgeno. No caso da
medicina, a necessidade atual por
dados clnicos bem estruturados e con-
sistentes sobre grandes populaes.
Tais dados, que so difceis de coletar
e caros, sero crticos para ligar os
36 Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004
dados moleculares com o fentipo.
Embora exista um crescente nmero
de centros de bioinformtica, a maior
tendncia que ela esteja presente
nos centros de pesquisa e nas univer-
sidades, em cada departamento de
biologia ou biotecnologia, em cada
faculdade na rea das cincias biolgi-
cas em todo o mundo. Todos os
grandes centros de pesquisa tero que
ter profissionais especializados em bio-
informtica/biologia computacional.
Hoje consenso geral que essas insti-
tuies necessitam de pessoas com
esse entendimento em seus departa-
mentos de biologia e necessitaro for-
mar os seus estudantes de graduao
em biologia quantitativa em vez de
somente biologia experimental. Os
experimentos precisam ser feitos no
contexto do conhecimento corrente,
e os dados gerados precisam ser ra-
pidamente armazenados e explorados
computacionalmente juntamente com
o universo de informao disponvel.
Nunca na histria da cincia as
informaes foram to democratica-
mente acessveis como hoje. Especial-
mente as informaes e ferramentas
disponibilizadas pela bioinformtica.
No importa quem e onde. O mesmo
tipo de informao pode ser acessada
por qualquer pessoa, em qualquer
lugar do mundo. Praticamente todas
as ferramentas de bioinformtica e
bancos de dados disponveis podem
ser dispostos de modo que possam
ser acessadas e utilizadas na web. Basta
fazer a pergunta correta e buscar a
resposta.
Concluso
O debate que est emergindo
atualmente se existe uma pletora
ou escassez de dados experimentais
proveitosos derivados pala plataforma
das micas. O grande desafio, no en-
tanto, o que se pode fazer com es-
ses dados. No h dvida de que a
tecnologia da informao precisa ser
tomada como parte integral do pro-
cesso de descoberta pelos pesquisa-
dores no campo da biologia. Este o
problema fundamental que precisa ser
resolvido pela bioinformtica, promo-
vendo um profundo impacto no pro-
cesso de descobertas biolgicas.
necessrio que ocorram discusses
freqentes entre todos os especialis-
tas participantes de estudos relacio-
nados, visando um emprego mais ad-
equado da cultura cientfica dos par-
ticipantes, j que, de modo simplifi-
cado, os bilogos querem entender
como os organismos funcionam e os
cientistas da computao querem fazer
ferramentas que resolvam problemas.
O estabelecimento de uma linguagem
comum entre os especialistas em difer-
entes reas, o monitoramento de quais
ferramentas so mais usadas e impor-
tantes para o escopo do estudo, uma
fi l osofi a ori entada para novas
descobertas, no orientada por dog-
mas, so recomendaes importantes
para o sucesso dos empreendimen-
tos cientficos. Treinamentos cons-
tantes e workshops devem fazer parte
dos investimentos previstos nos pro-
jetos.
O bom entendimento entre os
pesquisadores de diferentes reas
fundamental. Por exemplo, os cien-
tistas da computao devem ser pa-
cientes com o bilogo, j que este
geralmente no sabe exatamente
onde quer chegar ou o que espera dos
dados (o que natural nos estudos
biolgicos). Deve ensinar pelo menos
os conceitos bsicos de computao
para estabelecer uma plataforma co-
mum de comunicao, encorajar os
bilogos a mostrar como eles esto
realmente usando as ferramentas dis-
ponibilizadas e buscar sempre propor-
cionar o mximo de acesso aos da-
dos. A reteno longa dos dados inibe
o esprito de comunidade. Por parte
do bilogo, espera-se que no espere
muito ou tente fazer as coisas sozi -
nho, fale com uma variedade de cien-
tistas da computao, encontre aque-
les mais interessados no seu proble-
ma, encontre aqueles com quem gos-
ta de trabalhar, faa perguntas com
freqncia e logo que surjam, use uma
variedade de novas ferramentas, fa-
zendo comentrios/sugestes assim
que puder e busque entender os de-
safios da computao para solucionar
problemas novos. A obteno de no-
vos conhecimentos acelera quando
todos contribuem.
Agradecimentos
Aos colegas Dr. Francisco Pros-
docimi, Dr. Newton Portilho Carneiro
e Dr. Alexandre Lima Nepomuceno
pela reviso crtica deste artigo.
Referncias
Bassingthwaighte JB. Strategies for the
physiome project. Ann Biomed
Eng. 2000, 28(8):1043-58. PMID:
11144666
Bernal A, Ear U, Kyrpides N. Genomes
OnLine Database (GOLD): a
monitor of genome projects world-
wide. Nucleic Acids Res. 2001,
29(1):126-127. PMID: 11125068
Collins FS, Green ED, Guttmacher AE,
Guyer MS; US National Human
Genome Research Institute. A visi-
on for the future of genomics rese-
arch. Nature. 2003, 422(6934):835-
47. PMID: 12695777
Covert MW, Knight EM, Reed JL,
Herrgard MJ, Pal sson BO.
Integrating high-throughput and
computational data elucidates
bacterial networks. Nature. 2004,
429(6987):92-6. PMID: 15129285
Fleischmann RD, Adams MD, White O,
Clayton RA, Kirkness EF, Kerlavage
AR, Bult CJ, Tomb JF, Dougherty
BA, Merrick JM, et al. Whole-
genome random sequencing and
assembl y of Haemophilus
influenzae Rd. Science. 1995,
269(5223):496-512. PMID:
7542800
Galperin MY. The Molecular Biology
Database Collection: 2004 update.
Nucleic Acids Res. 2004, 1;32
Database issue:D3-22. PMID:
14681349
Gao F, Foat BC, Bussemaker HJ.
Defining transcriptional networks
through integrative modeling of
mRNA expression and transcription
factor bi ndi ng data. BMC
Bioinformatics. 2004, 18;5(1):31.
PMID: 15113405
Garavelli JS. The RESID Database of
Protein Modifications: 2003
developments. Nucleic Acids Res.
2003, 31(1):499-501. PMID:
12520062
Genomics and Its Impact on Science
and Society: The Human Genome
Proj ect and Beyond. U. S.
Department of Energy Human
Genome Program. 2003. Dispon-
vel http://www.ornl.gov/sci/
techresources/Human_Genome/
Biotecnologia Cincia & Desenvolvimento n.32 - janeiro/junho 2004 37
publicat/primer2001/index.shtml
Goodsell DS. Inside a living cell. Tren-
ds Biochem Sci. 1991, 16(6):203-
206. PMID: 1891800
Goto S, Okuno Y, Hattori M, Nishioka
T, Kanehisa M. LIGAND: database
of chemical compounds and reac-
tions in biological pathways. Nu-
cleic Acids Res. 2002, 30(1):402-4.
PMID: 11752349
Guerreiro N, Staedtler F, Grenet O,
Kehren J, Chibout SD. Toxicoge-
nomics in drug development. To-
xicol Pathol. 2003, 31(5):471-9.
PMID: 14692614
Hoersch S, Leroy C, Brown NP, Andra-
de MA, Sander C. The GeneQuiz
web server: protein functional
analysis through the Web. Trends
Biochem Sci. 2000, 25(1):33-35.
PMID: 10637611
James P. Protein identification in the
post-genome era: the rapid rise of
proteomics. Q Rev Biophys. 1997,
30(4):279-331. PMID: 9634650
Kanehisa M, Goto S, Kawashima S,
Okuno Y, Hattori M. The KEGG
resource for deciphering the ge-
nome. Nucleic Acids Res. 2004, 32
Database issue:D277-D280. PMID:
14681412
Kramer JA, Kolaja KL. Toxicogeno-
mics: an opportunity to optimise
drug development and safety eva-
luation. Expert Opin Drug Saf. 2002,
1(3):275-86. PMID: 12904143
Kondro W. MOLECULAR BIOLOGY:
Consortium Tackles Mouse Regu-
l ome. Sci ence. 2004,
304(5673):942A. PMID: 15143247
Lefranc MP. IMGT, The International
ImMunoGeneTics Information Sys-
tem, http://imgt.cines.fr. Methods
Mol Biol. 2004, 248:27-49. PMID:
14970490
Lopez-Otin C, Overall CM. Protease
degradomics: a new challenge for
proteomics. Nat Rev Mol Cell Biol.
2002, 3(7): 509-19. PMID:
12094217
Marshall A. Genset-Abbott deal heralds
pharmacogenomics era. Nat Bio-
technol. 1997, 15(9):829-30. PMID:
9306389
Mewes HW, Amid C, Arnold R, Frish-
man D, Guldener U, Mannhaupt
G, Munsterkotter M, Pagel P, Stra-
ck N, Stumpflen V, Warfsmann J,
Ruepp A. MIPS: analysis and anno-
tation of proteins from whole
genomes.Nucleic Acids Res. 2004,
32 Database issue:D41-D44. PMID:
14681354
Novik KL, Nimmrich I, Genc B, Maier S,
Piepenbrock C, Olek A, Beck S.
Epigenomics: genome-wide study
of methylation phenomena. Curr
Issues Mol Biol. 2002, 4(4):111-28.
PMID: 12432963
Palsson B. In silico biology through
omics. Nat Biotechnol. 2002,
20(7):649-50. PMID: 12089538
Palsson B. The challenges of in silico
biology. Nat Biotechnol. 2000,
18(11):1147-50. PMID: 11062431
Pennisi E. Human genome. Reaching
their goal early, sequencing labs
celebrate. Science. 2003a,
300(5618):409. PMID: 12702850
Pennisi E. Human genome. A low num-
ber wins the GeneSweep Pool.
Science. 2003b, 300(5625):1484.
PMID: 12791949
Pennisi E. Bioinformatics. Gene coun-
ters struggle to get the right answer.
Science. 2003c, 301(5636):1040-
1. PMID: 12933991
Prates MV, Bloch C. Peptdeos antimi-
crobianos. Biotecnologia Cincia e
Desenvolvimento. 2002, 29: 30-
36.
Roven C, Bussemaker HJ. REDUCE:
An online tool for inferring cis-
regulatory elements and transcrip-
tional module activities from mi-
croarray data. Nucleic Acids Res.
2003, 31(13):3487-90. PMID:
12824350
Rubin GM, Yandell MD, Wortman JR,
Gabor Miklos GL, Nelson CR, Ha-
riharan IK, Fortini ME, Li PW, Apwei-
ler R, Fleischmann W, Cherry JM,
Henikoff S, Skupski MP, Misra S,
Ashburner M, Birney E, Boguski
MS, Brody T, Brokstein P, Celniker
SE, Chervitz SA, Coates D, Cra-
vchik A, Gabrielian A, Galle RF,
Gelbart WM, George RA, Golds-
tein LS, Gong F, Guan P, Harris NL,
Hay BA, Hoskins RA, Li J, Li Z,
Hynes RO, Jones SJ, Kuehl PM,
Lemaitre B, Littleton JT, Morrison
DK, Mungall C, OFarrell PH, Pi-
ckeral OK, Shue C, Vosshall LB,
Zhang J, Zhao Q, Zheng XH, Lewis
S. Comparative genomics of the
eukaryotes. Science. 2000,
287(5461):2204-2215. PMID:
10731134
Sanford K, Soucaille P, Whited G, Cho-
tani G. Genomics to fluxomics and
physiomics - pathway enginee-
ring. Curr Opin Microbiol. 2002,
5(3):318-22. PMID: 12057688
Schilling CH, Edwards JS, Palsson BO.
Toward metabolic phenomics:
analysis of genomic data using flux
balances. Biotechnol Prog. 1999,
15(3):288-95. PMID: 10356245
Schulz-Knappe P, Zucht HD, Heine G,
Jurgens M, Hess R, Schrader M.
Peptidomics: the comprehensive
analysis of peptides in complex
biological mixtures. Comb Chem
High Throughput Screen. 2001,
4(2):207-17. PMID: 11281836
Stalker J, Gibbins B, Meidl P, Smith J,
Spooner W, Hotz HR, Cox AV. The
Ensembl web site: mechanics of a
genome browser. Genome Res.
2004, 14(5):951-955. PMID:
15123591
Steuer R, Kurths J, Fiehn O, Weckwer-
th W. Observing and interpreting
correlations in metabolomic ne-
tworks. Bioinformatics. 2003,
19(8):1019-26. PMID: 12761066
Weckwerth W, Loureiro ME, Wenzel
K, Fiehn O. Differential metabolic
networks unravel the effects of
silent plant phenotypes. Proc Natl
Acad Sci U S A. 2004. PMID:
15136733
Weinstein JN. Searching for pharmaco-
genomic markers: the synergy
between omic and hypothesis-dri-
ven research. Dis Markers. 2001,
17(2):77-88. PMID: 11673654
Werner T. Proteomics and regulomics:
the yin and yang of functional
genomics. Mass Spectrom Rev.
2004, 23(1): 25-33. PMID:
14625890
Wright FA, Lemon WJ, Zhao WD, Sears
R, Zhuo D, Wang JP, Yang HY,
Baer T, Stredney D, Spitzner J,
Stutz A, Krahe R, Yuan B. A draft
annotation and overview of the
human genome. Genome Biol.
2001, 2(7):RESEARCH0025. PMID:
11516338
Zanzoni A, Montecchi-Palazzi L, Quon-
dam M, Ausiello G, Helmer-Citteri-
ch M, Cesareni G. MINT: a Molecu-
lar INTeraction database. FEBS Lett.
2002, 513(1):135-40. PMID:
11911893

Você também pode gostar