Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioinformática Aplicada À Genômica
Bioinformática Aplicada À Genômica
CP 486
Introduo
minissatlites,
etc.),
seqncias
estruturais
(centrmeros,
telmeros,
Polimorfismo
variantes genticas
na populao
bilhes
Interaes
Protena-Protena
metabolismo
Estrutura 4a
bilhes
milhes
Protenas
Estrutura 3a
Estrutura 2a
MPMILGYWDIRGLAHAIRLLLEYTDSSYEEKKYT...
milhares
Sequncias primrias de
aminocidos nas protenas
...atcgaattccaggcgtcacattctcaattca...
bilhes
Sequncias de DNA
Ex: Farmacogenmica
desenvolvimento de novos medicamentos
especficos para cada indivduo e doena,
local de ao restrito s regies afetadas e
sem efeitos colaterais.
Genoma
Figura 1 Acmulo de dados biolgicos (A) e aplicaes do conhecimento genmico (B).
Atualmente a bioinformtica imprescindvel para a manipulao dos dados
biolgicos. Ela pode ser definida como uma modalidade que abrange todos os aspectos de
aquisio, processamento, armazenamento, distribuio, anlise e interpretao da
informao biolgica. Atravs da combinao de procedimentos e tcnicas da matemtica,
estatstica e cincia da computao so elaboradas vrias ferramentas que nos auxiliam a
compreender o significado biolgico representado nos dados genmicos. Alm disso,
atravs da criao de bancos de dados com as informaes j processadas, acelera a
investigao em outras reas como a medicina, a biotecnologia, a agronomia, etc (Borm
e Santos, 2001).
programa BLAST no procura conduzir uma comparao da extenso total das molculas
comparadas, mas apenas identificar, no banco de dados, a presena de uma seqncia
suficientemente parecida com a pesquisada. Descarta, assim, rapidamente, os resultados
no produtivos e estende a vizinhana da regio de homologia detectada at no mais
conseguir. O resultado desta busca, que feita no GenBank ou em vrias de suas
subdivises (pode-se facilmente limitar a pesquisa a seqncias de um dado organismo,
por exemplo), retorna aquelas seqncias (DNA ou protenas) depositadas (Subject) com
maior homologia. Desta forma vrias regies de DNA podem ser anotadas atravs do
BLAST, cujo resultado pode servir para atribuir uma funo a qualquer segmento de DNA
que apresenta homologia significativa a outras seqncias de DNA ou protenas
previamente depositadas no GenBank com funo conhecida experimentalmente (figura
2). interessante verificar que se utilizssemos um nucleotdio, "A" por exemplo, para
pesquisar seqncias humanas, a chance de encontrarmos uma regio homloga seria
igual a 1 (100%). Se a nossa seqncia pesquisada fosse mais complexa, 144 bases por
exemplo, a chance de encontrarmos uma seqncia perfeitamente idntica seria pequena.
O valor de "E" , um parmetro calculado pelo BLAST, expressa essa dificuldade e, quanto
menor seu valor, menor a chance de tal comparao ter sido encontrada por pura
coincidncia.
Alignments
>gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495
Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%)
Query: 1
ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206
Query: 61
tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266
Query: 121 gggggccctggtgcaggcagcctg 144
||||||||||||||||||||||||
Sbjct: 267 gggggccctggtgcaggcagcctg 290
Mapas Genmicos
Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do
seqenciamento da bactria Haemophilus influenzae utilizando uma metodologia de tiro
no escuro" (do ingls shotgun). Esta estratgia envolve o seqenciamento totalmente ao
acaso, para posterior montagem numa seqncia contgua, ou contig (figura 3) e tem-se
mostrado extremamente til para o seqenciamento de genomas simples, como o de
bactrias e, mais recentemente em genomas complexos, como o da drosfila (Adams et
al. 2000) e do homem (Venter et al. 2001). Na verdade, o seqenciamento executado pelo
consrcio pblico do genoma humano tambm teve uma poro shotgun (figura 3).
Fragmentos grandes de DNA clonados em BAC (cromossomos artificial de bactria), de
cerca de 150 mil pb, previamente mapeados em lugares especficos dos cromossomos,
eram enviados para centros de seqenciamento ao redor do planeta e, em cada centro,
fragmentos pequenos eram gerados por quebras fsicas e seqenciados no escuro, com
uma cobertura de at dez vezes. Contigs eram montados e geravam a sequncia do
grande fragmento e a informao era devolvida para a montagem final do genoma. Mas o
processo Shotgun utilizado pela empresa Celera foi diferente: o genoma era fragmentado
em pedaos de 2 mil, 10 mil e 50 mil nucleotdios, que aps serem clonados,
seqenciavam-se as extremidades destas molculas. Cada extremidade seqenciada
encontrava alguma sobreposio com alguma outra seqncia da coleo, mas sabendose a seqncia das outras extremidades destas duas molculas, era possvel conferir
duplamente o resultado das sobreposies. As molculas longas funcionam como ncoras,
onde as extremidades das molculas maiores podem ser utilizadas no apenas para
comprovar a montagem mas tambm para ligar e ordenar contigs bem como direcionar o
seqenciamento para algumas reas de descontinuidade entre os contigs.
A par do procedimento inteiramente shotgun, as metodologias convencionais de
seqenciamento (figura 3) utilizam vrias etapas de subclonagens (hierarquia de
clonagens) que dependem de mapeamentos diversos para ordenamento das seqncias
feitas a partir de clones em plasmdios que so montados em segmentos contnuos de
DNA (contigs), em pedaos cada vez maiores, at o cromossomo completo.
Clonagem hierrquica
cromossomo
Shotgun
cromossomo
Bibliotecas de plasmdios
- faz-se o sequenciamentos dos plasmdios
- sobreposio cria os contigs
Sequncia do clone 1
... accgagtacatgtgtacctgagcggtt...
Sequncia do clone 2
... gcggcagtccagcaaacggcgcgat...
Sequncias de vrios clones
Verifica a qualidade
do sequenciamento de DNA
450 pb
677 pb
PHRED
PHRAP
Clones
ordenados
Contig de DNA
10.500 pb
seqncias com possveis regies codificadoras. Vale notar que a ocorrncia no genoma
de ORFs superiores a 100 bases um evento raro, j que um dos 64 cdons (ATG) abre a
fase de leitura e trs so os terminadores (TAA, TAG e TGA), sendo que estes ltimos
apareceriam com alta probabilidade (3/64), a no ser quando se trata de uma regio
codificadora. H tambm vrios programas que detectam o uso no aleatrio de cdons
(codon usage), o qual tpico para cada organismo. Nos projetos de anlise do
transcriptoma (ver abaixo) freqentemente o cdon iniciador no est presente e
programas de anlise do codon usage podem auxiliar no reconhecimento da fase de
leitura da poro codificadora. O programa ESTScan um dos mais usados para esses
fins.
O conhecimento prvio da protena e a sua funo em qualquer outra espcie
facilita bastante o processo de anotao de genes. No entanto, atualmente, grande parte
dos genes so ainda hipotticos, isto , no se conhece a funo biolgica destas
seqncias. Por exemplo, na bactria Escherichia coli, na planta Arabidopsis thaliana e na
mosca das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados no
possuem produto gnico ou funo conhecida.
Provavelmente, muitos dos supostos "genes hipotticos" sero futuramente
descartados enquanto outros segmentos gnicos sero identificados aps terem passado
desapercebidos pelos atuais algoritmos de predio gnica. Este aparente paradoxo
resulta do fato de que no existe uma identificao inequvoca de um gene. Por esta
razo, vrias estimativas do nmero de genes em diferentes espcies tm sido
amplamente divulgadas e freqentemente apresentavam resultados discordantes. Para o
genoma humano acreditava-se at bem pouco tempo em um nmero estimado ao redor
de 70-100 mil genes que foi reduzido para 30-40 mil genes com a publicao dos
primeiros rascunhos de nosso genoma em 2001 (Lander et al. 2001 e Venter et al. 2001).
Para facilitar a identificao e classificao funcional dos genes foi criado o consrcio Gene
Ontology que pretende fornecer um vocabulrio padronizado para a descrio dos
produtos gnicos.
Produto gnico
Transposon
Gene hipottico
Gene Predito
Contig
....actctagt....
Gene 1
Gene 2
Anlise de Transcriptomas
O estudo do transcriptoma de cada organismo de grande importncia para a
identificao de genes, mas tambm incorpora informaes sobre o funcionamento do seu
genoma. As seqncias produzidas pelos projetos de seqenciamento do transcriptoma
constituem-se em evidncia direta da existncia de genes com sua determinada ordem de
xons. Por outro lado, a anlise de transcriptomas de diferentes espcies, inclusive a
humana, tem evidenciado uma altssima freqncia de processamentos (splicing)
diferenciais dos transcritos primrios. Neste caso, um gene pode apresentar uma grande
variao
funcional
devido
simplesmente
ao
sorteio
de
xons
promovido
pelo
processamento diferencial.
Para se estudar o transcriptoma no necessrio seqenciar completamente todos
os genes de um tecido ou organismo. Grande parte dos genes podem ser identificados
atravs da anlise de pequenas seqncias que funcionam como etiquetas. Estas
seqncias
chamadas
ESTs,
ou
Expressed
Seqence
Tags,
so
resultado
do
seqenciamento parcial de cDNAs (figura 6). O objetivo das ESTs identificar a presena
de genes expressos em um transcriptoma, associando a etiqueta ao gene (e sua funo)
atravs um programa tal como o BLAST que faz busca por homologias. Freqentemente as
seqncias parciais (ESTs) se originam de ambas as extremidades do cDNA, embora
alguns projetos prefiram a extremidade 3' por facilitar a gerao de seqncias consenso
atravs do agrupamento de vrios ESTs, enquanto outros escolhem a extremidade 5' por
estar mais prxima da regio codificadora da protena, o que facilita a identificao por
homologia. Todavia, uma tecnologia recentemente desenvolvida no Brasil (Dias-Neto et al.
2000) permite o seqenciamento da regio central dos mRNAs. A tecnologia, denominada
ORESTES, de Open Reading frames ESTs (figura 6) baseia-se na amplificao de cDNAs
por PCR aleatrio cujos produtos so utilizados para gerar uma biblioteca. O
seqenciamento desta biblioteca, contendo fragmentos aleatrios derivados de diferentes
regies de cada mRNA, favorece o reconhecimento da funo do transcrito por pesquisa
de homologia, pois incorpora mais freqentemente a ORF no transcrito do que as ESTs
convencionais (figura 6). Os ORESTES foram responsveis pela identificao de 219 novos
genes no cromossomo 22 humano (Souza et al. 2000) que no haviam sido detectados
previamente por outras anlises bioinformticas. Alm disto, o agrupamento de
seqncias para gerao de consensos facilitado quando so utilizados ESTs
convencionais associados aos ORESTES. Estes consensos so importantes pois muitas
vezes contm toda regio codificadora facilitando o processo de anotao gnica em
eucariotos.
DNA genmico
GENE
Transcrio
RNA
AAAAA
RNA mensageiro
Retro-transcrio
+ clonagem
+ sequenciamento
EST 5
cDNA clonado
AAAAA
cDNA do gene
EST 3 ~300 pb
...ACGATGGCT...
Etiquetas
do gene
RNA
RNA mensageiro
AAAAA
Retro-transcrio
+ PCR aleatrio
+ clonagem dos produtos
+ sequenciamento
Biblioteca ORESTES
de cDNAs pequenos
aleatrios
cDNA 1
cDNA 2
cDNA 3
cDNA 4
...ACGATGGCT...
Etiquetas
do gene
podem ser depositados por um rob cerca de 10 a 100 mil seqncias de genes
conhecidos. Sondas com fluorescncias distintas podem ser preparadas a partir de mRNA
isolado de duas populaes de clulas, normais ou transformadas por exemplo, e atravs
da anlise da intensidade de hibridizao pode-se comparar a expresso gnica diferencial
desses
mltiplos
genes
em
um
tempo
extremamente
reduzido.
Ferramentas
Bioinformtica no Brasil
No Brasil, o Laboratrio de Bioinformtica da Unicamp pioneiro nesta rea,
desenvolvendo e aplicando vrias ferramentas pesquisa genmica. Este laboratrio foi
responsvel pela montagem, no computador, do genoma do primeiro organismo
seqenciado no Pas em 2000, a bactria Xyllela fastidiosa (Simpson et al. 2000),
causadora da doena do amarelinho-da-laranja.
Vrios outros centros de bioinformtica tm aflorado no Brasil com a criao de
redes nacionais e regionais de seqenciamento de genomas. No Laboratrio Nacional de
Computao Cientfica (LNCC) em Petrpolis, RJ, funciona o Centro de Bioinformtica do
Projeto Genoma Brasileiro (figura 7), formado por iniciativa do Conselho Nacional de
Desenvolvimento Cientfico e Tecnolgico (CNPq). H vrios projetos de anlise de
Referncias online
Projetos Genomas
http://www.ncbi.nlm.nih.gov/Genomes
http://brgene.lncc.br
http://watson.fapesp.br/onsa/Genoma3.htm
http://www.ncbi.nlm.nih.gov/genome/guide/human
http://doegenomestolife.org
Recursos de Bioinformtica
Bancos de dados e ferramentas do NCBI
http://www.ncbi.nlm.nih.gov
http://www.ncbi.nlm.nih.gov/BLAST
http://www.phrap.org
http://www.ncbi.nlm.nih.gov
http://www.ncbi.nlm.nih.gov/UniGene
http://www.ncbi.nlm.nih.gov/LocusLink
Gene Ontology Consortium - banco de dados genmicos para categorizao dos genes de
acordo com suas funes moleculares, processos biolgicos e componentes celulares.
http://www.geneontology.org
http://www.orchid.com
http://www.celera.com
http://www.sanger.ac.uk/Software/ACT
http://www.ncgr.org
http://www.ebi.ac.uk
http://genome.dkfz-heidelberg.de
http://www.tigr.org/software
http://genes.mit.edu/GENSCAN.html
http://www.ch.embnet.org/software/ESTScan.html
http://www.lbi.ic.unicamp.br
http://www.icb.ufmg.br/~infobio
Referncias Bibliogrficas
Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, et al. (2000) The
genome seqence of Drosophila melanogaster. Science. 287: 2185-2195
Dias Neto E, Garcia Correa R, Verjovski-Almeida S, Briones MR, Nagai MA, et al. (2000)
Shotgun seqencing of the human transcriptome with ORF expressed seqence tags.
Proc Natl Acad Sci U S A. 97: 3491-3496
Ebersberger I, Metzler D, Schwarz C e Paabo S. (2002) Genomewide comparison of DNA
seqences between humans and chimpanzees. Am J Hum Genet. 70: 1490-1497
Jimenez-Sanchez G, Childs B e Valle D. (2001) Human disease genes. Nature. 409:853855
Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (2001) Initial
seqencing and analysis of the human genome. Nature. 409: 860-921
Meyerson M, Counter CM, Eaton EN, Ellisen LW, Steiner P, Caddle SD, Ziaugra
L,Beijersbergen RL, et al. (1997) hEST2, the putative human telomerase catalytic
subunit gene, is up-regulated intumor cells and during immortalization. Cell. 90: 785795
Perna NT, Plunkett G 3rd, Burland V, Mau B, Glasner JD, Rose DJ, Mayhew GF, et al.
(2001) Genome seqence of enterohaemorrhagic Escherichia coli O157:H7. Nature.
409: 529-533
Borm A e Santos FR (2001) Biotecnologia Simplificada. Editora Suprema. Viosa, MG.
Simpson AJ, Reinach FC, Arruda P, Abreu FA, Acencio M, Alvarenga R, Alves LM, et al.
(2000) The genome seqence of the plant pathogen Xylella fastidiosa. Nature 406: 151157
Souza SJ, Camargo AA, Briones MR, Costa FF, Nagai MA, Verjovski-Almeida S, et al. (2000)
Identification of human chromosome 22 transcribed seqences with ORF expressed
seqence tags. Proc Natl Acad Sci U S A. 97: 12690-12693.
Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, et al.
(2001) The seqence of the human genome. Science. 291: 1304-1351
Velculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995). Serial Analysis Of
Gene Expression. Science. 270: 484-487.