Escolar Documentos
Profissional Documentos
Cultura Documentos
Pesquisa
Integrando a bioinformao
O papel da bioinformtica em expanso
N Estimado de Genes
30.000
30.000
25.000
19.000
13.000
6.000
3.200
9
29
As micas
larga escala, deu campo para o surgimento de uma lista de novos termos,
Antes da era da bioinformtica, que no pra de crescer. Estamos ensomente duas maneiras de fazer ex- trando na era das micas (Palsperimentao em biologia eram dis- son,2002). Com centenas de milhares
ponveis: utilizando um organismo vivo de protenas para identificar, correla(tambm chamado in vivo) ou em cionar e entender, por exemplo, no
um sistema artificial (tambm chama- suficiente estudar um gene, um
do in vitro). Seguindo essa analogia, produto gnico ou um processo de
podemos dizer que a bioinformtica cada vez. Por outro lado, estudar em
de fato a biologia in silico. A bioin- larga escala um conjunto de molcuformtica veio para facilitar o uso de las com o objetivo de entender mecancomputadores no sentido de organizar ismos celulares, dificilmente podem
e analisar integradamente uma mon- responder questes interessantes sem
Fig.6:deGerminao
de sementes
de mamo
sob condies
in vitro,gerada
aps pela
a assistncia
da informao
tanha
dados complexos
e variados,
ter-se
retirado
a
sarcotesta
e
realizado
sua
assepsia
possibilitando enfrentar o desafio de pesquisa tradicional dirigida por hipdecifrar componentes importantes teses. Por isso, os dois tipos de cindentro de um universo crescente de cia atualmente disponveis, as micas
informaes. Isso somado ao desen- e as pesquisas dirigidas por hipteses
volvimento de equipamentos podero- (Weinstein, 2001), so sinrgicas e
sos para a miniaturizao e automao devem ser utilizadas de modo a se
da aquisio de dados biolgicos em complementarem.
Genmica
A genmica se caracteriza pelo estudo dos genes e suas funes. A sua chegada, com o projeto genoma humano
no final da dcada de 1980, alavancou toda a revoluo atual no campo da biologia. Muitas expectativas e investimentos
tm sido empregadas na genmica, visando aplicaes nas reas da indstria farmacutica, agricultura, produo de
energia e proteo do meio ambiente. Mas a determinao da seqncia completa de vrios genomas no o final da
histria. apenas o comeo, principalmente pelo fato de que mecanismos biolgicos no podem ser inferidos simplesmente
a partir do conhecimento da seqncia sem o auxlio de outras estratgias de estudo, as micas em geral.
Genmica comparativa. Esse novo ramo da genmica, que vem se tornando cada vez mais comum dada a
quantidade de seqncias de genomas sendo produzidas, tem o objetivo de comparar todo o contedo de DNA do
genoma de um organismo particular com outros genomas j conhecidos. Atravs dessa anlise pode ser possvel
identificar diferenas, tanto no contedo gnico quanto no-gnico, que podem ser responsveis por importantes
propriedades fenotpicas ou evolutivas, como patogenicidade, reaes a condies ambientais adversas, proximidade
taxonmica entre grupos e at mesmo a aquisio (ou manifestao?) de determinados comportamentos individuais.
31
que se baseia na hibridao em paralelo de cidos nuclicos. Experimentos de expresso gnica com DNA microarrays
vm sendo largamente utilizados para explorar o modelo de expresso simultnea e em paralelo de milhares de genes.
Isso requer ferramentas poderosas de correlao computacional.
Um DNA microarray consiste de uma coleo de sequncias parciais de genes (normalmente cDNAs) que so
espotados individualmente em locais especficos de uma lmina. Essas sequncias geralmente variam de 500 a 4000
bases (idealmente 500 a 2000 bases) e podem ser escolhidas a partir de diferentes regies do gene dependendo do
objetivo do projeto. Uma variao da tcnica, chamada DNA chip, baseada na deposio ou sntese in situ de
oligonucleotdeos para a gerao de alvos. Esses chips contm oligmeros curtos variando de 25 a 80 bases como
seqncias-alvo. Enquanto essas sequncias curtas podem conferir alta sensibilidade, elas podem apresentar baixa
especificidade de ligao comparada com DNA microarrays, uma vez que as seqncias so curtas e usualmente no
representam genes conhecidos.
O uso de DNA microarrays para o estudo do modelo de expresso gnica baseia-se em dois princpios. Primeiro,
considera-se que cada gene expresso ou no e as diferenas no seu nvel de expresso em uma clula ou tecido, em
determinado momento, so um reflexo de quais mRNAs esto presentes e a sua abundncia, e; segundo, as fitas de
DNA podem hibridar-se com seqncias complementares formando uma molcula estvel em fita dupla.
Tipicamente, a primeira face dos dados experimentais de DNA microarrays uma lista de genes/sequncias ou
nmeros de identificao e o seu perfil de expresso. Modelos de correlao dentro do conjunto massivo de dados de
pontos no so bvios por uma inspeo visual. Diferentes algoritmos de agrupamento computacional precisam ser
usados simultaneamente para reduzir a complexidade dos dados e para encurtar a relao entre genes de acordo com
o seu nvel de expresso ou mudanas nos nveis de expresso. Problemas relacionados com as tcnicas de agrupamento so considerados na seo anterior.
Uma das maiores vantagens da utilizao da tcnica de DNA microarray, comparando-a com outros mtodos,
a facilidade da anlise simultnea e em paralelo de um grande nmero de genes e de um grande nmero de amostras.
Deve ser notado, entretanto, que todas essas tcnicas usadas para a quantificao de mRNA proporcionam um nvel de
informao emprica e no uma condio estvel absoluta. Alm disso, sabe-se que a deteco de uma diferena na
abundncia de um mRNA especfico entre duas amostras biolgicas no necessariamente refletida por uma diferena
quantitativa equivalente no nvel de abundncia da protena, o que muitas vezes est implcito nos estudos.
Existem, portanto, limitaes intrnsecas da tcnica, entre as quais (i) a abundncia do mRNA nem sempre bem
correlacionada com a abundncia da protena, (ii) a sensibilidade e variao dinmica dos mtodos existentes so tais
que os mRNAs menos abundantes, potencialmente codificando as protenas regulatrias mais importantes, no so
facilmente medidos como acontece com os mRNAs mais abundantes, e (iii) a atividade das protenas codificadas pelos
mRNAs regulada a vrios nveis aps a sua expresso. Por exemplo, a localizao subcelular e/ou a extenso em que
as protenas so ps-traducionalmente modificadas, no so reveladas pela medio da abundancia do mRNA.
Protemica
Para entender a funo de todos os genes em um organismo, necessrio conhecer no s quais genes so
expressos, quando e onde, mas tambm quais so os produtos da expresso e em que condies esses produtos
(protenas) so sintetizados em certos tecidos. A protemica tenta descrever o conjunto completo de protenas produto
da expresso do genoma (James, 1997), e fornece informaes importantes para complementar os estudos de transcriptmica e metabolmica.
Os organismos podem sintetizar muitos milhares de protenas ao mesmo tempo, e a diversidade potencial de
tipos de protenas no proteoma certamente excede o nmero estimado de genes no genoma. Isso ocorre porque os
produtos de um gene podem diferir devido a splicing alternativo e uma variedade de modificaes ps-traducionais
possveis, como apresentado acima. O crescente interesse no campo da protemica vem concentrando esforos para
acelerar o desenvolvimento e implementao de estratgias mais apropriadas para a anlise de expresso e funo de
protenas em escala genmica.
Esse interesse tem ocorrido, em parte substancial, devido ao sucesso dos projetos de sequenciamentos genmicos, considerando que a realizao bem sucedida desses projetos tem resultado em uma apreciao mais extensa de
que, por si s, eles revelam menos do que se esperava sobre a biologia do organismo. Os dados de sequncias
genmicas proporcionam uma plataforma essencial para um conhecimento mais amplo das estratgias experimentais
complementares que daro suporte caracterizao dos genes contidos nos genomas. A utilizao integrada dessas
ferramentas possibilitar o entendimento de como os produtos desses genes atuam conjuntamente para regular as
atividades do organismo.
A protemica depende da extrao, separao, visualizao, identificao e quantificao das protenas presentes
em um organismo ou tecido, em um determinado momento. Todos esses estgios tm limitaes. Portanto, atualmente,
impossvel descrever o proteoma completo de um organismo.
Atualmente, o ponto de partida para muitas tentativas na investigao das mudanas na expresso protica
envolve a resoluo das protenas de uma mistura complexa por eletroforese 2-D e a sua subsequente identificao
usando mtodos analticos cada vez mais precisos e poderosos. Eletroforese 2-D, complementada com HPLC, permite
32
separar e purificar vrios milhares de protenas extradas de um tecido ou clulas, em um determinado momento ou
condio. Embora a eletroforese 2-D apresente significantes limitaes, parece ser o melhor mtodo at o momento
para resolver um grande nmero de protenas de uma mistura, ao mesmo tempo em que permite acessar as mudanas
no nvel de expresso e a purificao de protenas chave para subsequente caracterizao.
Avanos relativamente recentes na caracterizao de protenas tm surgido da automatizao de mtodos como
matrix-assisted laser desortion-ionization (MALDI) e eletrospray ionization (ESI) mass spectrocopy (MS) para se
obter o fingerprinting de massa e sequenciamento de peptdeos.
Metabolmica
A metabolmica uma rea da genmica funcional que estuda as mudanas na expresso de pequenas molculas
orgnicas, conhecidas como metablitos, em sistemas biolgicos. Ela promete complementar a genmica por permitir
avaliaes objetivas do fentipo (Weckwerth, et al, 2004).
Grande importncia vem sendo dada para a combinao de dados de metabolmica com dados de expresso
gnica e protemica. A metabolmica ajudar na revelao de como os gentipos so associados com os fentipos e
fazer simulaes de mecanismos celulares em larga escala. Em uma escala maior, o fenomenoma (Schilling et al, 1999;
Palsson, 2000) ajudar a materializar mtodos de anlise com a melhor tecnologia para estudos [e interpretaes] do
metaboloma.
O fenomenoma requer uma organizao de descobertas biolgicas, quantificando e identificando todos os
metablitos em um complexo de amostras biolgicas, rpida e simultaneamente. Isso deve ser obtido sem qualquer
seleo a priori dos metablitos de interesse, para evitar tendenciosidades. Softwares de bioinformtica so necessrios
para organizar e facilitar a visualizao dos dados de modo a auxiliar na sua interpretao (Steuer et al, 2003; Covert et
al, 2004). Os softwares devem combinar dados obtidos por DNA microarrays, protemica e metabolmica numa
mesma visualizao.
Essa tecnologia permitir, em ltima instncia, a integrao e correlao das mudanas globais no metabolismo e
expresso gnica. Uma anlise quantitativa de todos os metablitos em uma clula pode ajudar no entendimento de
problemas como, por exemplo, os efeitos pleiotrpicos, em que um nico gene determina um nmero de caractersticas
no relacionadas. Problemas assim podem ser mais bem entendidos se uma alterao detectada no contedo de um
metablito, utilizado em vias metablicas diferentes, estiver relacionado com uma mutao no gene ou a sua sobreexpresso ou inibio.
O Quadro 2 mostra a evoluo
das principais novas reas da pesquisa
biolgica no ltimos anos, baseada no
nmero de ocorrncias de termos relacionados na literatura cientfica.
Alm dessas, uma variedade de
micas vem surgindo e uma sobreposio de propsito inevitvel.
Entre outras tantas, a farmacogenmica (Marshall, 1997) visa entender a interao da constutuio
gentica de um indivduo com a resposta a drogas.
A fisimica (Sanford et al, 2002)
se dedica a fazer uma descrio quantitativa das funes fisiolgicas de um
organismo intacto. necessrio predi- zer o fentipo a partir do gentipo, mas isso difcil por causa das in-
Quadro 2 Nmero de ocorrncias de referncias no PubMed (http://www.ncbi.nlm.nih/) em algumas novas reas da pesquisa
biolgica, desde 1998. Busca limitada para os campos Ttulo e Abstract.
Palavra chave
Genomics
Comparative genomics
Functional genomics
Transcriptomics
Proteomics
Pharmacogenomics
Metabolomics
Peptidomics
Bioinformatics
1988
3
1990
12
1991
23
1992
38
1993
52
1994
64
12
1995
90
4
20
1996
130
8
44
1997
208
18
10
1
1
78
1998
386
37
46
20
11
144
1999
678
69
131
1
67
37
230
2000
1263
126
277
3
277
136
2
420
2001
2081
192
480
7
631
249
7
5
657
2002
3104
291
736
23
1254
472
28
8
1058
2003
4199
427
1016
41
2022
702
59
18
1604
Abril2004
4660
503
1127
63
2444
795
81
23
1852
33
34
Depois do descobrimento da
dupla fita de DNA, do cdigo gentico, enzimas de restrio, PCR e tantos avanos na biologia molecular durante a segunda metade do sculo
passado, na ltima dcada experienciamos uma nova revoluo no campo da biologia com a era da genmica, e com ela muitas outras micas,
como apresentado acima. Nesse contexto, muitas perguntas surgiram e
permanecem ainda sem respostas
satisfatrias, como: quais os impactos da genmica nos projetos de
pesquisa nas diversas reas das cincias biolgicas? o mtodo cientfico
35
freqentes entre todos os especialistas participantes de estudos relacionados, visando um emprego mais adequado da cultura cientfica dos participantes, j que, de modo simplificado, os bilogos querem entender
como os organismos funcionam e os
cientistas da computao querem fazer
ferramentas que resolvam problemas.
O estabelecimento de uma linguagem
comum entre os especialistas em diferentes reas, o monitoramento de quais
ferramentas so mais usadas e importantes para o escopo do estudo, uma
filosofia orientada para novas
descobertas, no orientada por dogmas, so recomendaes importantes
para o sucesso dos empreendimentos cientficos. Treinamentos constantes e workshops devem fazer parte
dos investimentos previstos nos projetos.
O bom entendimento entre os
pesquisadores de diferentes reas
fundamental. Por exemplo, os cientistas da computao devem ser pacientes com o bilogo, j que este
geralmente no sabe exatamente
onde quer chegar ou o que espera dos
dados (o que natural nos estudos
biolgicos). Deve ensinar pelo menos
os conceitos bsicos de computao
para estabelecer uma plataforma comum de comunicao, encorajar os
bilogos a mostrar como eles esto
realmente usando as ferramentas disponibilizadas e buscar sempre proporcionar o mximo de acesso aos dados. A reteno longa dos dados inibe
o esprito de comunidade. Por parte
do bilogo, espera-se que no espere
muito ou tente fazer as coisas sozi nho, fale com uma variedade de cientistas da computao, encontre aqueles mais interessados no seu problema, encontre aqueles com quem gosta de trabalhar, faa perguntas com
freqncia e logo que surjam, use uma
variedade de novas ferramentas, fazendo comentrios/sugestes assim
que puder e busque entender os desafios da computao para solucionar
problemas novos. A obteno de novos conhecimentos acelera quando
todos contribuem.
Agradecimentos
Aos colegas Dr. Francisco Prosdocimi, Dr. Newton Portilho Carneiro
publicat/primer2001/index.shtml
Goodsell DS. Inside a living cell. Trends Biochem Sci. 1991, 16(6):203206. PMID: 1891800
Goto S, Okuno Y, Hattori M, Nishioka
T, Kanehisa M. LIGAND: database
of chemical compounds and reactions in biological pathways. Nucleic Acids Res. 2002, 30(1):402-4.
PMID: 11752349
Guerreiro N, Staedtler F, Grenet O,
Kehren J, Chibout SD. Toxicogenomics in drug development. Toxicol Pathol. 2003, 31(5):471-9.
PMID: 14692614
Hoersch S, Leroy C, Brown NP, Andrade MA, Sander C. The GeneQuiz
web server: protein functional
analysis through the Web. Trends
Biochem Sci. 2000, 25(1):33-35.
PMID: 10637611
James P. Protein identification in the
post-genome era: the rapid rise of
proteomics. Q Rev Biophys. 1997,
30(4):279-331. PMID: 9634650
Kanehisa M, Goto S, Kawashima S,
Okuno Y, Hattori M. The KEGG
resource for deciphering the genome. Nucleic Acids Res. 2004, 32
Database issue:D277-D280. PMID:
14681412
Kramer JA, Kolaja KL. Toxicogenomics: an opportunity to optimise
drug development and safety evaluation. Expert Opin Drug Saf. 2002,
1(3):275-86. PMID: 12904143
Kondro W. MOLECULAR BIOLOGY:
Consortium Tackles Mouse Regulome.
Science.
2004,
304(5673):942A. PMID: 15143247
Lefranc MP. IMGT, The International
ImMunoGeneTics Information System, http://imgt.cines.fr. Methods
Mol Biol. 2004, 248:27-49. PMID:
14970490
Lopez-Otin C, Overall CM. Protease
degradomics: a new challenge for
proteomics. Nat Rev Mol Cell Biol.
2002, 3(7):509-19. PMID:
12094217
Marshall A. Genset-Abbott deal heralds
pharmacogenomics era. Nat Biotechnol. 1997, 15(9):829-30. PMID:
9306389
Mewes HW, Amid C, Arnold R, Frishman D, Guldener U, Mannhaupt
G, Munsterkotter M, Pagel P, Strack N, Stumpflen V, Warfsmann J,
Ruepp A. MIPS: analysis and anno-
10731134
Sanford K, Soucaille P, Whited G, Chotani G. Genomics to fluxomics and
physiomics - pathway engineering. Curr Opin Microbiol. 2002,
5(3):318-22. PMID: 12057688
Schilling CH, Edwards JS, Palsson BO.
Toward metabolic phenomics:
analysis of genomic data using flux
balances. Biotechnol Prog. 1999,
15(3):288-95. PMID: 10356245
Schulz-Knappe P, Zucht HD, Heine G,
Jurgens M, Hess R, Schrader M.
Peptidomics: the comprehensive
analysis of peptides in complex
biological mixtures. Comb Chem
High Throughput Screen. 2001,
4(2):207-17. PMID: 11281836
Stalker J, Gibbins B, Meidl P, Smith J,
Spooner W, Hotz HR, Cox AV. The
Ensembl web site: mechanics of a
genome browser. Genome Res.
2004, 14(5):951-955. PMID:
15123591
Steuer R, Kurths J, Fiehn O, Weckwerth W. Observing and interpreting
correlations in metabolomic networks. Bioinformatics. 2003,
19(8):1019-26. PMID: 12761066
Weckwerth W, Loureiro ME, Wenzel
K, Fiehn O. Differential metabolic
networks unravel the effects of
silent plant phenotypes. Proc Natl
Acad Sci U S A. 2004. PMID:
15136733
Weinstein JN. Searching for pharmacogenomic markers: the synergy
between omic and hypothesis-driven research. Dis Markers. 2001,
17(2):77-88. PMID: 11673654
Werner T. Proteomics and regulomics:
the yin and yang of functional
genomics. Mass Spectrom Rev.
2004, 23(1):25-33. PMID:
14625890
Wright FA, Lemon WJ, Zhao WD, Sears
R, Zhuo D, Wang JP, Yang HY,
Baer T, Stredney D, Spitzner J,
Stutz A, Krahe R, Yuan B. A draft
annotation and overview of the
human genome. Genome Biol.
2001, 2(7):RESEARCH0025. PMID:
11516338
Zanzoni A, Montecchi-Palazzi L, Quondam M, Ausiello G, Helmer-Citterich M, Cesareni G. MINT: a Molecular INTeraction database. FEBS Lett.
2002, 513(1):135-40. PMID:
11911893
37