Você está na página 1de 21

Manuscrito para captulo do Biowork IV

Bioinformtica aplicada Genmica



Fabrcio R. Santos
1
e J os Miguel Ortega
2





1 Departamento de Biologia Geral e 2 Departamento de Bioqumica e Imunologia da
Universidade Federal de Minas Gerais, Belo Horizonte, Minas Gerais, Brasil.







Autor para correspondncia: Prof. Fabrcio R. Santos
Departamento de Biologia Geral, ICB, UFMG,
Av. Antnio Carlos 6627, CP 486
31270-010, Belo Horizonte, MG, Brasil.
Tel: +55 31 3499-2581. Fax: +55 31 3499-2570
e-mail: fsantos@mono.icb.ufmg.br

Introduo


Com o incio do Projeto Genoma Humano em 1990 e subseqente disponibilizao
de seqenciadores automticos de DNA capazes de gerar dados genmicos em grande
escala, os bancos de dados e ferramentas de anlise tiveram de se adaptar a este volume
crescente de informaes. Seqncias de nucleotdios so adicionadas aos bancos de
dados (como o GenBank) na ordem de milhares de pares de bases (pb) por segundo todos
os dias. Nos servios de bioinformtica de projetos genoma, essas inmeras seqncias
individuais, cada uma portando geralmente entre 400 a 1000 pb, devem ser montadas em
seqncias cada vez maiores, os contigs, atravs de ferramentas que avaliam a qualidade
das seqncias individuais e a superposio destas, para que finalmente sejam
disponibilizados segmentos cromossmicos inteiros de alta qualidade. Para a cobertura
total de um genoma com boa qualidade estima-se que este deva ser seqenciado ao
equivalente a dez vezes seu tamanho em pares de bases. O dito "rascunho de trabalho"
do genoma humano contm cerca de 20% da informao assim tratada e o restante com
uma cobertura de cinco vezes, o que inclusive demandou um esforo bioinformtico ainda
maior para sua montagem. Espera-se para 2003 o mapa completo de alta qualidade com
24 segmentos de cada tipo de cromossomo humano (1-22, X e Y). No mapa fsico de
seqncias, as diferentes regies devem ser interpretadas com respeito sua funo,
atravs de um processo denominado anotao genmica. A homologia existente entre
genes presentes em diversos organismos utilizada na anotao de funo; assim um
gene caracterizado numa levedura pode ajudar na identificao funcional do gene com a
mesma funo - denominado ortlogo, no homem, por exemplo. Vrios algoritmos
distintos foram desenvolvidos para facilitar o processo de anotao nas suas vrias etapas.
Neste processo so identificados os vrios tipos de seqncias repetitivas (transposons,
micro e minissatlites, etc.), seqncias estruturais (centrmeros, telmeros,
heterocromatina, satlites, etc.), seqncias regulatrias (promotores, enhancers, etc.) e
regies transcritas que correspondem aos genes de cada organismo. Vale a pena notar
que a presena dos ntrons nos organismos que os contm , como no homem, dificultam
em muito a anotao do genoma, sendo nestes casos muito importante a existncia de
projetos de seqenciamento do transcriptoma. Este pode ser definido como o conjunto de
seqncias expressas de um genoma na forma de mRNA, que pode ser seqenciado a
partir de bibliotecas de cDNAs preparadas com o auxlio da enzima transcriptase reversa
que converte RNA em DNA. Diferentemente do seqenciamento do genoma, a anlise do
transcriptoma exige a investigao de vrias clulas e tecidos diferentes, bem como de
distintos estgios do desenvolvimento, para que se detecte o maior nmero possvel de
genes. Com essas seqncias em mos, facilitada a procura de genes no DNA genmico,
proporcionando tambm a correta identificao dos ntrons.

Dados biolgicos advindos do conhecimento genmico so relativamente complexos
em comparao aos provenientes de outras reas cientficas, dada a sua diversidade e ao
seu inter-relacionamento (figura 1). A partir do conhecimento fundamental do genoma
objetiva-se compreender o conjunto de peas que atuam no funcionamento complexo de
todo o organismo. Porm, no momento, isso somente possvel por partes. Busca-se
entender as estruturas moleculares das protenas, as interaes entre vrias protenas,
bem como destas com as demais molculas biolgicas (DNA, carboidratos, lipdios, etc), as
diversas vias metablicas celulares e o papel da variabilidade gentica representada pelas
vrias formas de cada protena. Toda essa informao disponibilizada pela cincia
genmica (figura 1) s possvel de ser organizada, analisada e interpretada com o apoio
da informtica. Um novo projeto ambicioso denominado Genomes to life foi recentemente
lanado pelo Departamento de Energia dos EUA (o mesmo que lanou a idia do Projeto
Genoma, em 1987) e objetiva chegar a uma compreenso fundamental e sistemtica
sobre a vida, atravs dos genomas que esto sendo descritos. Uma das idias deste
mega-projeto reconstituir in-silico (no computador) o funcionamento de um
microorganismo com todas suas funes biolgicas.


Figura 1 Acmulo de dados biolgicos (A) e aplicaes do conhecimento genmico (B).

Atualmente a bioinformtica imprescindvel para a manipulao dos dados
biolgicos. Ela pode ser definida como uma modalidade que abrange todos os aspectos de
aquisio, processamento, armazenamento, distribuio, anlise e interpretao da
informao biolgica. Atravs da combinao de procedimentos e tcnicas da matemtica,
estatstica e cincia da computao so elaboradas vrias ferramentas que nos auxiliam a
compreender o significado biolgico representado nos dados genmicos. Alm disso,
atravs da criao de bancos de dados com as informaes j processadas, acelera a
investigao em outras reas como a medicina, a biotecnologia, a agronomia, etc (Borm
e Santos, 2001).

Bancos de dados Genmicos

Devido a essa imensa quantidade de dados gerados em inmeros laboratrios de
todo o mundo, faz-se necessrio organiz-los de maneira acessvel, de modo a evitar

...atcgaattccaggcgtcacattctcaattca...
bilhes
Sequncias de DNA
MPMILGYWDIRGLAHAIRLLLEYTDSSYEEKKYT...
Protenas
Estrutura 3
a
Estrutura 2
a
milhares
milhes
Polimorfismo
variantes genticas
na populao
Expresso gnica nas clulas e tecidos
Desenvolvimento de tecidos e rgos
Novas abordagens genmicas em:
Biologia Celular
Bioqumica,
Ecologia,
Embriologia,
Endocrinologia,
Farmacologia,
Fisiologia,
Imunologia,
Patologia,
Neurobiologia, etc.
Ex: Farmacogenmica
desenvolvimento de novos medicamentos
especficos para cada indivduo e doena,
local de ao restrito s regies afetadas e
sem efeitos colaterais.
Interaes
Protena-Protena
metabolismo
Estrutura 4
a
Genoma
Sequncias primrias de
aminocidos nas protenas
bilhes
bilhes
A B
...atcgaattccaggcgtcacattctcaattca...
bilhes
Sequncias de DNA
MPMILGYWDIRGLAHAIRLLLEYTDSSYEEKKYT...
Protenas
Estrutura 3
a
Estrutura 2
a
milhares
milhes
Polimorfismo
variantes genticas
na populao
Expresso gnica nas clulas e tecidos
Desenvolvimento de tecidos e rgos
Novas abordagens genmicas em:
Biologia Celular
Bioqumica,
Ecologia,
Embriologia,
Endocrinologia,
Farmacologia,
Fisiologia,
Imunologia,
Patologia,
Neurobiologia, etc.
Ex: Farmacogenmica
desenvolvimento de novos medicamentos
especficos para cada indivduo e doena,
local de ao restrito s regies afetadas e
sem efeitos colaterais.
Interaes
Protena-Protena
metabolismo
Estrutura 4
a
Genoma
Sequncias primrias de
aminocidos nas protenas
bilhes
bilhes
A B
redundncia na pesquisa cientfica e possibilitar a anlise por um maior nmero possvel
de cientistas. A construo de bancos de dados para armazenamento de informaes de
seqncias de DNA e genomas inteiros, protenas e suas estruturas tridimensionais, bem
como vrios outros produtos da era genmica, tem sido um grande desafio, mas
simultaneamente extremamente importante.

O NCBI, ou Centro Nacional para Informao Biotecnolgica dos EUA, considerado
o banco de dados central sobre informaes genmicas. Vrios outros bancos de dados
similares esto distribudos por pases da Europa e J apo, mas todos trocam dados em um
intervalo de 24 horas com o NCBI. O GenBank o principal banco de dados do NCBI e
armazena todas seqncias disponveis publicamente de DNA (de seqncias pequenas a
genomas inteiros), RNA e protenas. Alm do GenBank, que coleta todas as entradas de
seqncias, outros bancos do NCBI apresentam as informaes organizadas de diferentes
maneiras. Por exemplo, o UniGene agrupa todas as seqncias parciais do transcriptoma
de um organismo em aglomerados ou clusters, onde cada aglomerado representa a
seqncia consenso de um gene. Tambm no NCBI, o banco de dados RefSeq rene
somente as seqncias de referncia, ou seja, a mais representativa seqncia de um
transcrito, editada e inspecionada por um curador. , freqentemente, o melhor banco de
dados para se evitar a redundncia natural num universo com tantas informaes. Para
acesso ao RefSeq e outros bancos de seqncias curadas foi desenvolvida a ferramenta
LocusLink no NCBI. Outros bancos so especficos de um organismo, tal como o OMIM
(Online Mendelian Inheritance in Man) que foi criado para catalogar todos genes e alelos
relacionados a doenas e outras caractersticas humanas, bem como proporcionar um
detalhamento tcnico e bibliografia referente a cada caracterstica. A existncia destes
bancos de dados, ditos secundrios, tm sido to importante quanto preservar os dados
originais no GenBank.

Vrias ferramentas desenvolvidas pela bioinformtica permitem o acesso e anlise
dos dados no GenBank. A ferramenta mais popular de comparao de seqncias de DNA
com os bancos de dados genmicos o BLAST ou Basic Local Alignment Search Tool.
Atravs deste algoritmo podemos comparar uma seqncia de DNA ou protena (Query)
qualquer com todas seqncias genmicas de domnio pblico. importante notar que o
programa BLAST no procura conduzir uma comparao da extenso total das molculas
comparadas, mas apenas identificar, no banco de dados, a presena de uma seqncia
suficientemente parecida com a pesquisada. Descarta, assim, rapidamente, os resultados
no produtivos e estende a vizinhana da regio de homologia detectada at no mais
conseguir. O resultado desta busca, que feita no GenBank ou em vrias de suas
subdivises (pode-se facilmente limitar a pesquisa a seqncias de um dado organismo,
por exemplo), retorna aquelas seqncias (DNA ou protenas) depositadas (Subject) com
maior homologia. Desta forma vrias regies de DNA podem ser anotadas atravs do
BLAST, cujo resultado pode servir para atribuir uma funo a qualquer segmento de DNA
que apresenta homologia significativa a outras seqncias de DNA ou protenas
previamente depositadas no GenBank com funo conhecida experimentalmente (figura
2). interessante verificar que se utilizssemos um nucleotdio, "A" por exemplo, para
pesquisar seqncias humanas, a chance de encontrarmos uma regio homloga seria
igual a 1 (100%). Se a nossa seqncia pesquisada fosse mais complexa, 144 bases por
exemplo, a chance de encontrarmos uma seqncia perfeitamente idntica seria pequena.
O valor de "E" , um parmetro calculado pelo BLAST, expressa essa dificuldade e, quanto
menor seu valor, menor a chance de tal comparao ter sido encontrada por pura
coincidncia.

Figura 2 - Resultado da busca por similaridade com o programa BLAST. O segmento de
DNA seqenciado (Query) demonstrou alta homologia (100%) com o gene
da Insulina humana (Sbjct).

Alignments
>gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495
Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%)
Query: 1 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206
Query: 61 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266
Query: 121 gggggccctggtgcaggcagcctg 144
||||||||||||||||||||||||
Sbjct: 267 gggggccctggtgcaggcagcctg 290
Alignments
>gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495
Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%)
Query: 1 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206
Query: 61 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266
Query: 121 gggggccctggtgcaggcagcctg 144
||||||||||||||||||||||||
Sbjct: 267 gggggccctggtgcaggcagcctg 290
H vrias modalidades de BLAST. A mais curiosa e de grande importncia na
descoberta gnica aquela onde tanto a Query como a base de dados (Subject) so
seqncias de nucleotdios. Neste programa, antes de verificar a homologia, so feitas as
seis tradues possveis de cada seqncia de nucleotdios, ou seja, tanto a seqncia
pesquisada quanto cada uma das presentes na base de dados so transformadas em seis
protenas (iniciando pela base 1, 2 ou 3 de cada fita). Essa modalidade, denominada
tBLASTx, permite que seja retornado o par protena Query - protena Subject e muito
vlida pois as protenas de dois organismos so mais parecidas entre si que os nucleotdios
que as codificam. Nesta anlise, apenas uma das seis leituras de significado biolgico, as
demais geram resultados que so desprezados. O tBLASTx foi utilizado em descoberta
gnica inmeras vezes, como por exemplo na identificao da subunidade cataltica da
telomerase humana assim que tal enzima foi identificada no protozorio Euplotes
(Meyerson et al. 1997). Outras modalidades buscam homologia entre seqncias de
nucleotdios (BLASTn), seqncias de protenas (BLASTp) ou entre seqncias de
nucleotdios e protenas (BLASTx). Uma outra variedade de BLAST o PSI-BLAST, que em
uma primeira busca encontra as protenas mais homlogas pesquisada - Query; procede
identificando as regies conservadas dentre os melhores resultados da pesquisa e, em
buscas subseqentes, mascara as regies no conservadas da Query e pesquisa levando
em conta apenas as regies conservadas.

Nos bancos de dados h tambm uma grande variedade de informaes sobre
estruturas moleculares, expresso gnica diferencial, diversidade gentica, evoluo, etc.
que podem ser extradas pela bioinformtica. Um dos grandes desafios o
desenvolvimento de procedimentos pelos quais esses dados podem ser inseridos e
"extrados" em bancos de dados secundrios, pelos pesquisadores. H vrias ferramentas
que se encontram disponveis no prprio NCBI e em outros centros, mas h muito campo
para o desenvolvimento de procedimentos especficos. Ferramentas desenvolvidas
recentemente incluem bancos de genes classificados de acordo com sua histria evolutiva
(COG-NCBI), algoritmos de comparao de genomas inteiros (ACT - Artemis Comparison
Tool), ferramentas de busca de similaridade estrutural de protenas, independentemente
da seqncia primria (VAST-NCBI), etc.

medida que feito o seqenciamento do genoma de muitas espcies, a genmica
comparativa assume grande importncia e procedimentos computacionais para correlao
entre organismos no nvel molecular tornam-se essenciais. Pesquisas comparativas tm
sido utilizadas para estudos funcionais do genoma, por exemplo da anlise dos genes de
bactrias E. coli patognicas e no-patognicas (Perna et al. 2001), para identificao de
genes relacionados s doenas que estes provocam (J imenez-Sanchez et al. 2001), para
identificar seqncias de DNA e protenas que possam ser responsveis por diferenas
entre espcies, tal como entre homem e chimpanz (Ebersberger et al. 2002). Dentre os
procariotos foi demonstrado por genmica comparada que na histria evolutiva vrios
segmentos de DNA foram trocados entre distintas espcies, num processo de
transferncia horizontal. Outras aplicaes das anlises comparativas entre genomas esto
emergindo: desenvolvimento de tecidos e rgos, base da resistncia a doenas
infecciosas, prognstico de cncer, etc. Para cada um desses propsitos, novas
ferramentas de bioinformtica so construdas e muitas delas so disponibilizadas via
servidores www na Internet.

Uma nova disciplina, a farmacogenmica, j possui investimentos pesados de vrias
empresas para desenvolvimento de novos medicamentos a partir de anlises genmicas.
Grande parte da pesquisa em farmacogenmica depende da identificao de variaes
inter-individuais em humanos para a localizao de genes relacionados susceptibilidade
ou resistncia a doenas ou frmacos. Algumas empresas, tal como a Orchid BioSciences,
possuem bancos de dados privados contendo estas variaes genticas, na maior parte do
tipo SNPs (Single Nucleotide Polymorphisms) que correspondem a variantes em uma nica
posio nucleotdica. O NCBI possui um banco de dados de SNPs de diferentes
organismos, sendo que na espcie humano so mais de 4 milhes catalogados. A Celera
investiu fortemente na identificao de SNPs de camundongo para aplicaes na
farmacogenmica. A partir das colees de SNPs pode-se estudar com mtodos de
biologia molecular e ferramentas bioinformticas as associaes entre os distintos alelos e
caractersticas importantes para o desenvolvimento de novos medicamentos e tratamentos
mais precisos e sem efeitos colaterais.

Mapas Genmicos

Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do
seqenciamento da bactria Haemophilus influenzae utilizando uma metodologia de tiro
no escuro" (do ingls shotgun). Esta estratgia envolve o seqenciamento totalmente ao
acaso, para posterior montagem numa seqncia contgua, ou contig (figura 3) e tem-se
mostrado extremamente til para o seqenciamento de genomas simples, como o de
bactrias e, mais recentemente em genomas complexos, como o da drosfila (Adams et
al. 2000) e do homem (Venter et al. 2001). Na verdade, o seqenciamento executado pelo
consrcio pblico do genoma humano tambm teve uma poro shotgun (figura 3).
Fragmentos grandes de DNA clonados em BAC (cromossomos artificial de bactria), de
cerca de 150 mil pb, previamente mapeados em lugares especficos dos cromossomos,
eram enviados para centros de seqenciamento ao redor do planeta e, em cada centro,
fragmentos pequenos eram gerados por quebras fsicas e seqenciados no escuro, com
uma cobertura de at dez vezes. Contigs eram montados e geravam a sequncia do
grande fragmento e a informao era devolvida para a montagem final do genoma. Mas o
processo Shotgun utilizado pela empresa Celera foi diferente: o genoma era fragmentado
em pedaos de 2 mil, 10 mil e 50 mil nucleotdios, que aps serem clonados,
seqenciavam-se as extremidades destas molculas. Cada extremidade seqenciada
encontrava alguma sobreposio com alguma outra seqncia da coleo, mas sabendo-
se a seqncia das outras extremidades destas duas molculas, era possvel conferir
duplamente o resultado das sobreposies. As molculas longas funcionam como ncoras,
onde as extremidades das molculas maiores podem ser utilizadas no apenas para
comprovar a montagem mas tambm para ligar e ordenar contigs bem como direcionar o
seqenciamento para algumas reas de descontinuidade entre os contigs.

A par do procedimento inteiramente shotgun, as metodologias convencionais de
seqenciamento (figura 3) utilizam vrias etapas de subclonagens (hierarquia de
clonagens) que dependem de mapeamentos diversos para ordenamento das seqncias
feitas a partir de clones em plasmdios que so montados em segmentos contnuos de
DNA (contigs), em pedaos cada vez maiores, at o cromossomo completo.

Figura 3 - Seqenciamento por clonagem hierrquica e por tiro no escuro (shotgun)

Para executar essa montagem feita pela superposio das seqncias dos vrios
clones, novas ferramentas da bioinformtica foram construdas. Na figura 4, observa-se
que duas dessas ferramentas, o PHRED e o PHRAP, possibilitam a anlise das milhares de
seqncias de DNA geradas pelo seqenciador automtico. O PHRED verifica a qualidade
do seqenciamento de cada base das vrias seqncias e junto ao PHRAP faz o
alinhamento de todos os clones, construindo uma seqncia contnua, ou contig. No final,
vrios contigs iro compor um grande contig que pode ser a fita de DNA completa de um
cromossomo de bactria, que na maioria dos casos o seu genoma completo. Para a
montagem final vrias outras ferramentas foram desenvolvidas para manipulao e
ordenamento de grandes contigs, bem como a visualizao do mapa final com toda a
anotao funcional (Ex: Mummy e Assembler do TIGR). Nos eucariotos, cada cromossomo
possui uma molcula de DNA e, como humanos tm 24 tipos de cromossomos (1 a 22, X e
Y), deve-se seqenciar completamente 24 dessas molculas, avanando-se muitas vezes
por longos trechos de DNA repetitivo, que so praticamente impossveis de seqenciar
com perfeio.

Clonagem hierrquica
Biblioteca de clones grandes
- descobre-se a ordem certa
- escolhem-se os pouco sobrepostos
Em cada centro de seqenciamento:
- fragmenta-se os clones grandes em sub-bibliotecas de
plasmdios
- seqencia-se os fragmentos pequenos nos plasmdios
- atravs da sobreposio das seqncias pequenas
monta-se a seqncia dos clones grandes, os quais
quando sobrepostos montaro a seqncia do
cromossomo original.
Shotgun
Sobreposio dos contigs
- possveis descontinuidades devem ser
resolvidas com o uso de clones maiores
para unir os contigs de plasmdios
- o sequenciamento de extremidades de
molculas de tamanho grande e
conhecido vo orientando a montagem
final do cromossomo.
cromossomo cromossomo
Bibliotecas de plasmdios
- faz-se o sequenciamentos dos plasmdios
- sobreposio cria os contigs
Clonagem hierrquica
Biblioteca de clones grandes
- descobre-se a ordem certa
- escolhem-se os pouco sobrepostos
Em cada centro de seqenciamento:
- fragmenta-se os clones grandes em sub-bibliotecas de
plasmdios
- seqencia-se os fragmentos pequenos nos plasmdios
- atravs da sobreposio das seqncias pequenas
monta-se a seqncia dos clones grandes, os quais
quando sobrepostos montaro a seqncia do
cromossomo original.
Shotgun
Sobreposio dos contigs
- possveis descontinuidades devem ser
resolvidas com o uso de clones maiores
para unir os contigs de plasmdios
- o sequenciamento de extremidades de
molculas de tamanho grande e
conhecido vo orientando a montagem
final do cromossomo.
cromossomo cromossomo
Bibliotecas de plasmdios
- faz-se o sequenciamentos dos plasmdios
- sobreposio cria os contigs

Figura 4 Montagem de um contig pelo PHRED e o PHRAP.

Anotao Genmica e Predio de Genes

O processo de anotao genmica envolve a atribuio de funes e identificao
de padres e de genes na seqncia linear do DNA obtida do seqenciamento. Toda esta
informao est disponvel nas diferentes ordens e arranjos das seqncias de DNA.

Encontrar os genes a principal tarefa da anotao genmica. Para se fazer a
predio de genes, vrios parmetros podem ser avaliados tais como a existncia de
seqncias no DNA que possam funcionar como promotores seguidas por seqncias que
possam gerar uma protena funcional, ou que tenham similaridade com genes conhecidos,
etc. Diferentes algoritmos (Ex: GenScan) empregam processos estatsticos diversos para
se fazer a busca por ORFs (Open Reading Frames) ou fases de leitura aberta do cdigo
gentico, identificadas por um cdon iniciador e um terminador, que correspondem a
Sequncia do clone 1
... accgagtacatgtgtacctgagcggtt... 450 pb
Sequncia do clone 2
... gcggcagtccagcaaacggcgcgat... 677 pb
Sequncias de vrios clones = entre 200 e 800 pb
PHRED
PHRAP
Verifica a qualidade
do sequenciamento de DNA
Ordena as sequncias dos
clones formando um contig
de DNA
Clones
ordenados
Contig de DNA 10.500 pb
Ordenamento feito pela
superposio das
sequncias dos clones
Sequncias de DNA de baixa
qualidade so eliminadas
Sequncia do clone 1
... accgagtacatgtgtacctgagcggtt... 450 pb
Sequncia do clone 2
... gcggcagtccagcaaacggcgcgat... 677 pb
Sequncias de vrios clones = entre 200 e 800 pb
PHRED
PHRAP
Verifica a qualidade
do sequenciamento de DNA
Ordena as sequncias dos
clones formando um contig
de DNA
Clones
ordenados
Contig de DNA 10.500 pb
Ordenamento feito pela
superposio das
sequncias dos clones
Sequncias de DNA de baixa
qualidade so eliminadas
Sequncia do clone 1
... accgagtacatgtgtacctgagcggtt... 450 pb
Sequncia do clone 2
... gcggcagtccagcaaacggcgcgat... 677 pb
Sequncias de vrios clones = entre 200 e 800 pb
PHRED
PHRAP
Verifica a qualidade
do sequenciamento de DNA
Ordena as sequncias dos
clones formando um contig
de DNA
Clones
ordenados
Contig de DNA 10.500 pb
Ordenamento feito pela
superposio das
sequncias dos clones
Sequncias de DNA de baixa
qualidade so eliminadas
Sequncia do clone 1
... accgagtacatgtgtacctgagcggtt... 450 pb
Sequncia do clone 2
... gcggcagtccagcaaacggcgcgat... 677 pb
Sequncias de vrios clones = entre 200 e 800 pb
PHRED
PHRAP
Verifica a qualidade
do sequenciamento de DNA
Ordena as sequncias dos
clones formando um contig
de DNA
Clones
ordenados
Contig de DNA 10.500 pb
Ordenamento feito pela
superposio das
sequncias dos clones
Sequncias de DNA de baixa
qualidade so eliminadas
seqncias com possveis regies codificadoras. Vale notar que a ocorrncia no genoma
de ORFs superiores a 100 bases um evento raro, j que um dos 64 cdons (ATG) abre a
fase de leitura e trs so os terminadores (TAA, TAG e TGA), sendo que estes ltimos
apareceriam com alta probabilidade (3/64), a no ser quando se trata de uma regio
codificadora. H tambm vrios programas que detectam o uso no aleatrio de cdons
(codon usage), o qual tpico para cada organismo. Nos projetos de anlise do
transcriptoma (ver abaixo) freqentemente o cdon iniciador no est presente e
programas de anlise do codon usage podem auxiliar no reconhecimento da fase de
leitura da poro codificadora. O programa ESTScan um dos mais usados para esses
fins.

O conhecimento prvio da protena e a sua funo em qualquer outra espcie
facilita bastante o processo de anotao de genes. No entanto, atualmente, grande parte
dos genes so ainda hipotticos, isto , no se conhece a funo biolgica destas
seqncias. Por exemplo, na bactria Escherichia coli, na planta Arabidopsis thaliana e na
mosca das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados no
possuem produto gnico ou funo conhecida.

Provavelmente, muitos dos supostos "genes hipotticos" sero futuramente
descartados enquanto outros segmentos gnicos sero identificados aps terem passado
desapercebidos pelos atuais algoritmos de predio gnica. Este aparente paradoxo
resulta do fato de que no existe uma identificao inequvoca de um gene. Por esta
razo, vrias estimativas do nmero de genes em diferentes espcies tm sido
amplamente divulgadas e freqentemente apresentavam resultados discordantes. Para o
genoma humano acreditava-se at bem pouco tempo em um nmero estimado ao redor
de 70-100 mil genes que foi reduzido para 30-40 mil genes com a publicao dos
primeiros rascunhos de nosso genoma em 2001 (Lander et al. 2001 e Venter et al. 2001).
Para facilitar a identificao e classificao funcional dos genes foi criado o consrcio Gene
Ontology que pretende fornecer um vocabulrio padronizado para a descrio dos
produtos gnicos.



Figura 5 Processo de anotao de genes

Anlise de Transcriptomas

O estudo do transcriptoma de cada organismo de grande importncia para a
identificao de genes, mas tambm incorpora informaes sobre o funcionamento do seu
genoma. As seqncias produzidas pelos projetos de seqenciamento do transcriptoma
constituem-se em evidncia direta da existncia de genes com sua determinada ordem de
xons. Por outro lado, a anlise de transcriptomas de diferentes espcies, inclusive a
humana, tem evidenciado uma altssima freqncia de processamentos (splicing)
diferenciais dos transcritos primrios. Neste caso, um gene pode apresentar uma grande
variao funcional devido simplesmente ao sorteio de xons promovido pelo
processamento diferencial.

Para se estudar o transcriptoma no necessrio seqenciar completamente todos
os genes de um tecido ou organismo. Grande parte dos genes podem ser identificados
atravs da anlise de pequenas seqncias que funcionam como etiquetas. Estas
seqncias chamadas ESTs, ou Expressed Seqence Tags, so resultado do
seqenciamento parcial de cDNAs (figura 6). O objetivo das ESTs identificar a presena
de genes expressos em um transcriptoma, associando a etiqueta ao gene (e sua funo)
atravs um programa tal como o BLAST que faz busca por homologias. Freqentemente as
seqncias parciais (ESTs) se originam de ambas as extremidades do cDNA, embora
Gene hipottico
Contig
....actctagt....
Gene Predito
Dados de outros genes e genomas
permitem anotar uma funo e
produto para o Gene 2 com o
auxlio do programa BLAST.
Gene 1 Gene 2
Presena do suposto Gene 1 foi assinalada
por um algoritmo que busca por ORFs
signficativas. Enquanto no se conhece seu
produto (protena) considerado hipottico.
....actctagt....
Gene Predito
Produto gnico
Transposon
Regies repetitivas tais como transposons
podem ser anotadas com o auxlio de
programas tais como BLAST,
RepeatMasker e outros.
Gene hipottico
Contig
....actctagt....
Gene Predito
Dados de outros genes e genomas
permitem anotar uma funo e
produto para o Gene 2 com o
auxlio do programa BLAST.
Gene 1 Gene 2
Presena do suposto Gene 1 foi assinalada
por um algoritmo que busca por ORFs
signficativas. Enquanto no se conhece seu
produto (protena) considerado hipottico.
....actctagt....
Gene Predito
Produto gnico
Transposon
Regies repetitivas tais como transposons
podem ser anotadas com o auxlio de
programas tais como BLAST,
RepeatMasker e outros.
alguns projetos prefiram a extremidade 3' por facilitar a gerao de seqncias consenso
atravs do agrupamento de vrios ESTs, enquanto outros escolhem a extremidade 5' por
estar mais prxima da regio codificadora da protena, o que facilita a identificao por
homologia. Todavia, uma tecnologia recentemente desenvolvida no Brasil (Dias-Neto et al.
2000) permite o seqenciamento da regio central dos mRNAs. A tecnologia, denominada
ORESTES, de Open Reading frames ESTs (figura 6) baseia-se na amplificao de cDNAs
por PCR aleatrio cujos produtos so utilizados para gerar uma biblioteca. O
seqenciamento desta biblioteca, contendo fragmentos aleatrios derivados de diferentes
regies de cada mRNA, favorece o reconhecimento da funo do transcrito por pesquisa
de homologia, pois incorpora mais freqentemente a ORF no transcrito do que as ESTs
convencionais (figura 6). Os ORESTES foram responsveis pela identificao de 219 novos
genes no cromossomo 22 humano (Souza et al. 2000) que no haviam sido detectados
previamente por outras anlises bioinformticas. Alm disto, o agrupamento de
seqncias para gerao de consensos facilitado quando so utilizados ESTs
convencionais associados aos ORESTES. Estes consensos so importantes pois muitas
vezes contm toda regio codificadora facilitando o processo de anotao gnica em
eucariotos.

Figura 6 ESTs (A) e ORESTES (B) utilizados nos projetos transcriptomas

O transcriptoma pode revelar padres distintos de expresso gnica. Uma das
maneiras de se evidenciar a expresso gnica diferencial analisar a freqncia de
ocorrncia de um determinado transcrito numa preparao de cDNA de um tecido ou fase
de desenvolvimento. Apesar da construo de bibliotecas de cDNA sempre trazer um vis,
incorrendo na redundncia de alguns transcritos, a anlise de vrias bibliotecas permite
alguma aproximao do padro de expresso de um tecido ou fase de desenvolvimento de
um organismo. Todavia, nada se compara inverso introduzida pelos microarranjos
(microarrays ou biochips) na anlise da expresso gnica. Em uma lmina de microscpio
GENE
RNA mensageiro AAAAA
DNA genmico
RNA
cDNA clonado cDNA do gene AAAAA
Transcrio
Retro-transcrio
+ clonagem
+ sequenciamento
EST 5
EST 3 ~300 pb
...ACGATGGCT...
Etiquetas
do gene
RNA mensageiro AAAAA RNA
Biblioteca ORESTES
de cDNAs pequenos
aleatrios
Retro-transcrio
+ PCR aleatrio
+ clonagem dos produtos
+ sequenciamento
cDNA 1 cDNA 2
cDNA 3 cDNA 4
...ACGATGGCT...
Etiquetas
do gene
A
B
GENE
RNA mensageiro AAAAA
DNA genmico
RNA
cDNA clonado cDNA do gene AAAAA
Transcrio
Retro-transcrio
+ clonagem
+ sequenciamento
EST 5
EST 3 ~300 pb
...ACGATGGCT...
Etiquetas
do gene
GENE
RNA mensageiro AAAAA
DNA genmico
RNA
cDNA clonado cDNA do gene AAAAA
Transcrio
Retro-transcrio
+ clonagem
+ sequenciamento
EST 5
EST 3 ~300 pb
...ACGATGGCT...
Etiquetas
do gene
RNA mensageiro AAAAA RNA
Biblioteca ORESTES
de cDNAs pequenos
aleatrios
Retro-transcrio
+ PCR aleatrio
+ clonagem dos produtos
+ sequenciamento
cDNA 1 cDNA 2
cDNA 3 cDNA 4
...ACGATGGCT...
Etiquetas
do gene
RNA mensageiro AAAAA RNA
Biblioteca ORESTES
de cDNAs pequenos
aleatrios
Retro-transcrio
+ PCR aleatrio
+ clonagem dos produtos
+ sequenciamento
cDNA 1 cDNA 2
cDNA 3 cDNA 4
...ACGATGGCT...
Etiquetas
do gene
A
B
podem ser depositados por um rob cerca de 10 a 100 mil seqncias de genes
conhecidos. Sondas com fluorescncias distintas podem ser preparadas a partir de mRNA
isolado de duas populaes de clulas, normais ou transformadas por exemplo, e atravs
da anlise da intensidade de hibridizao pode-se comparar a expresso gnica diferencial
desses mltiplos genes em um tempo extremamente reduzido. Ferramentas
bioinformticas, principalmente voltadas ao processamento de imagens em uma escala
micro e nanomtrica, esto surgindo para analisar a expresso conjunta de genes,
detectadas em microarranjos.

Uma metodologia recente incorpora um nova tcnica de biologia molecular e
ferramentas de bioinformtica para anlise de expresso gnica diferencial. O SAGE, ou
Serial Analysis of Gene Expression (Velculescu et al. 1995), se baseia no uso de pequenas
seqncias chamadas tags (10 a 14 pb), nicas de cada gene, que so obtidas por etapas
de clivagens e ligaes com o cDNA e posteriormente co-amplificadas por PCR, formando
um concatmero de tags. A quantificao da expresso gnica se d pela anlise do
seqenciamento dos concatmeros atravs ferramentas especficas de bioinformtica.
Desta forma puderam ser identificados vrios genes provavelmente relacionados ao
processo de transformao celular nos tumores.

Bioinformtica no Brasil

No Brasil, o Laboratrio de Bioinformtica da Unicamp pioneiro nesta rea,
desenvolvendo e aplicando vrias ferramentas pesquisa genmica. Este laboratrio foi
responsvel pela montagem, no computador, do genoma do primeiro organismo
seqenciado no Pas em 2000, a bactria Xyllela fastidiosa (Simpson et al. 2000),
causadora da doena do amarelinho-da-laranja.

Vrios outros centros de bioinformtica tm aflorado no Brasil com a criao de
redes nacionais e regionais de seqenciamento de genomas. No Laboratrio Nacional de
Computao Cientfica (LNCC) em Petrpolis, RJ , funciona o Centro de Bioinformtica do
Projeto Genoma Brasileiro (figura 7), formado por iniciativa do Conselho Nacional de
Desenvolvimento Cientfico e Tecnolgico (CNPq). H vrios projetos de anlise de
transcriptoma em andamento tal como o projeto Genoma Humano do Cncer da FAPESP e
o projeto transcriptoma do parasita humano Schistosoma mansoni executado pela Rede
Genoma de Minas Gerais. O progresso dos vrios projetos de genomas no Brasil pode ser
acompanhado nesses bancos de dados dos centros de bioinformtica que so
disponibilizados via Internet.


Figura 7 Logotipo do Projeto Genoma Brasileiro, uma rede nacional de seqenciamento
de DNA financiada pelo CNPq, rgo de fomento pesquisa do Ministrio de
Cincia e Tecnologia do Brasil.

Em 2001 a bioinformtica foi considerada pela CAPES, rgo brasileiro que
coordena o ensino superior, como rea prioritria para incentivo de formao na ps-
graduao. Em 2002 foi lanado um edital para criao de cursos de ps-graduao nesta
rea no Brasil, dentro do qual foram selecionados dois programas, um da USP e outro da
UFMG. O objetivo inicial seria de formar ao redor de 50 doutores at 2007, refletindo a
necessidade crescente destes profissionais nas universidades e institutos de pesquisa.

Referncias online

Projetos Genomas

Bancos de dados de genomas
http://www.ncbi.nlm.nih.gov/Genomes

Projeto Genoma Brasileiro
http://brgene.lncc.br

Projetos Genomas da FAPESP
http://watson.fapesp.br/onsa/Genoma3.htm

Projeto Genoma Humano
http://www.ncbi.nlm.nih.gov/genome/guide/human

Projeto Genomes to Life
http://doegenomestolife.org

Recursos de Bioinformtica

Bancos de dados e ferramentas do NCBI
http://www.ncbi.nlm.nih.gov

BLAST - ferramenta de busca de homologia por alinhamento local
http://www.ncbi.nlm.nih.gov/BLAST

Phred, Phrap e Consed - ferramentas para anlise da qualidade de seqncias e para
montagem e visualizao de contigs
http://www.phrap.org

COG - Cluster of Ortolog Groups - Bancos de dados filogeneticamente referenciado.
http://www.ncbi.nlm.nih.gov

UniGene - Agrupamento de seqncias em consensos de genes.
http://www.ncbi.nlm.nih.gov/UniGene

LocusLink - ferramenta para recuperao de seqncias funcionais curadas.
http://www.ncbi.nlm.nih.gov/LocusLink

Gene Ontology Consortium - banco de dados genmicos para categorizao dos genes de
acordo com suas funes moleculares, processos biolgicos e componentes celulares.
http://www.geneontology.org

Orchid BioSciences - empresa da rea farmacogenmica
http://www.orchid.com

Celera - mega-empresa da rea genmica
http://www.celera.com

ACT - Artemis Comparison Tool - comparao de genomas inteiros
http://www.sanger.ac.uk/Software/ACT

National Center for Genome Research (USA) - ferramentas de anotao
http://www.ncgr.org

European Bioinformatics Institute - ferramentas e bancos de dados
http://www.ebi.ac.uk

The Biocomputing Service Group - vrias ferramentas de anlise genmica e anotao
http://genome.dkfz-heidelberg.de

TIGR - ferramentas para anotao gnica e montagem final e visualizao de genomas
http://www.tigr.org/software

GenScan - programa para predio de ORFs em um segmento genmico
http://genes.mit.edu/GENSCAN.html

ESTScan - programa para identificao de fase de leitura atravs do codon usage
http://www.ch.embnet.org/software/ESTScan.html

Laboratrio de Bioinformtica da Unicamp
http://www.lbi.ic.unicamp.br

Ncleo de Bioinformtica da UFMG - ferramentas simples de anlise
http://www.icb.ufmg.br/~infobio

Referncias Bibliogrficas

Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne J D, Amanatides PG, et al. (2000) The
genome seqence of Drosophila melanogaster. Science. 287: 2185-2195
Dias Neto E, Garcia Correa R, Verjovski-Almeida S, Briones MR, Nagai MA, et al. (2000)
Shotgun seqencing of the human transcriptome with ORF expressed seqence tags.
Proc Natl Acad Sci U S A. 97: 3491-3496
Ebersberger I, Metzler D, Schwarz C e Paabo S. (2002) Genomewide comparison of DNA
seqences between humans and chimpanzees. Am J Hum Genet. 70: 1490-1497
J imenez-Sanchez G, Childs B e Valle D. (2001) Human disease genes. Nature. 409:853-
855
Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J , et al. (2001) Initial
seqencing and analysis of the human genome. Nature. 409: 860-921
Meyerson M, Counter CM, Eaton EN, Ellisen LW, Steiner P, Caddle SD, Ziaugra
L,Beijersbergen RL, et al. (1997) hEST2, the putative human telomerase catalytic
subunit gene, is up-regulated intumor cells and during immortalization. Cell. 90: 785-
795
Perna NT, Plunkett G 3rd, Burland V, Mau B, Glasner J D, Rose DJ , Mayhew GF, et al.
(2001) Genome seqence of enterohaemorrhagic Escherichia coli O157:H7. Nature.
409: 529-533
Borm A e Santos FR (2001) Biotecnologia Simplificada. Editora Suprema. Viosa, MG.
Simpson AJ , Reinach FC, Arruda P, Abreu FA, Acencio M, Alvarenga R, Alves LM, et al.
(2000) The genome seqence of the plant pathogen Xylella fastidiosa. Nature 406: 151-
157
Souza SJ , Camargo AA, Briones MR, Costa FF, Nagai MA, Verjovski-Almeida S, et al. (2000)
Identification of human chromosome 22 transcribed seqences with ORF expressed
seqence tags. Proc Natl Acad Sci U S A. 97: 12690-12693.
Venter J C, Adams MD, Myers EW, Li PW, Mural RJ , Sutton GG, Smith HO, Yandell M, et al.
(2001) The seqence of the human genome. Science. 291: 1304-1351
Velculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995). Serial Analysis Of
Gene Expression. Science. 270: 484-487.

Você também pode gostar