Você está na página 1de 40

Anlise de genomas e

transcriptomas
Prof. Dr. Francisco Prosdocimi
As novas cincias MICAS
Genoma
Transcriptoma
Proteoma
Metaboloma

Fenoma, Lipidoma,
Glicoma, Interactoma,
Spliceoma, Kinoma,
etc.
Genomas e transcriptomas
O genoma nico

O transcriptoma modifica-
se espao-temporalmente
Quais genes esto ativos
num determinado instante
e condio?
Como isso influencia a
adaptao da clula ao
meio?

Proteoma
Montando o genoma da fbula
Abaixo temos uma Fbula Fabulosa do escritor Millr Fernandes que foi, assim
como um genoma, dividida em partes. Monte as partes e produza a seqncia
completa da fbula.

> Frase 1
edoria e calor que fazem os seres humanos - "mas eu no". MORAL DA HISTRIA:
NO MORRE A PASSARADA QUANDO MORRE UM PSSARO.
> Frase 2
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco
anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela compreenso,
sabed
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais
novo, ela no pde resistir e exclamou: "Mas, com
> Frase 4
dade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e calor
que fazem os seres humanos - "mas eu n
Montagem de genomas
Prof. Dr. Francisco Prosdocimi
Montando um quebra-cabeas
O problema da montagem
Genomas bacterianos normalmente tm o tamanho
medido em dezenas a centenas de quilobases (kb)
Genomas eucariticos tm o genoma medido em
Megabases (Mb) ou gigabases (Gb)
O genoma humano tem 3,1 Gb
Atravs do mtodo de Sanger normalmente produz-
se sequncias de 800bp

Como montar um genoma?


Montagem de genomas
numa casca de noz
A abordagem shotgun
Parte-se o DNA em
pedacinhos
Corre-se um gel
Escolhe-se o tamanho dos
fragmentos a trabalhar
Pedacinhos so clonados em
vetores (montagem da
biblioteca genmica)
Sequenciamento com primers
do vetor
Monta-se a sequncia por
sobreposio
Montagem da
Biblioteca Genmica
Fragmentao do DNA
Enzimas de restrio
Sonicao
Calor

Digesto do vetor
Ligao para a produo
da molcula recombinante
Insero em bactria
Como sequenciar
o que no se sabe o que ?
Para sequenciarmos no
mtodo de Sanger,
precisamos utilizar um
primer complementar
extremidade 5 do que
desejamos sequenciar

Vetor de sequenciamento
Primer Universal
Forward e Reverse

Sequenciamento do inserto
desconhecido
Anlise dos Sequencing Reads
Leituras do sequenciamento
(cada uma das sequncias
produzidas)
Tipos de Reads que podemos
encontrar
Vetor + Inserto
Vetor + Inserto + Vetor
Vetor

O vetor no representa nosso


genoma de estudo, portanto,
sua sequncia deve ser
mascarada
Possibilidades
(tericas) de mascaramento
> Sequencia original
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (1)


ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (2)


XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA

> Sequencia mascarada (3)


XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

> Sequencia mascarada (4)


ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

> Sequencia mascarada (5)


XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Reads limpas
O programa Cross_match LINUX prompt
$> cross_match reads.fasta vector.fasta
compara as sequncias de Aligning vector and read sequences
Masking vector regions
DNA e mascara as $> more reads.fasta.cross_match

sequncias do vetor > Read1


XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAG
AGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCA
GCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX
S temos agora sequncia
do organismo que
estudamos
Alinhamento de sequncias
(bioinformtica)
Sobreposio das
sequncias
Sequence clustering
Clculo da pontuao de sobreposio
Match / Mismatch / Gap scores
Minmatch (14) / Minscore (30)
Montagem de contigs
Reads alinhados
Programa cria sequncias consenso (contigs)
CAP3, Phrap, TIGR Assembler, Celera Assembler
Problemas de montagem
E se o genoma contiver muitas Genome Contig

sequncias repetitivas?
O clustering vai reunir partes
do genoma que no so Sequencing reads

contguas

Anlise do contedo de Regio repetitiva: alta cobertura de reads

repeties de um genoma Alinhamento com regies doutras partes do genoma

deve ser feito antes da


montagem

Deve-se mascarar as
repeties e montar apenas as
partes do genoma sem
repeties
Reconstruo do genoma
Contigs + gaps

Certas regies do DNA


so difceis de serem
clonadas
Clonagem de fragmentos
estatstica

No esto presentes na
biblioteca de DNA

Portanto, no so
sequenciadas
Genome finishing
Primer walking consiste
numa tcnica de
fechamento de genomas
Primers so criados para a
realizao de uma PCR
que produzir a sequncia
dos gaps

E se a sequncia for
muito grande?

Grande parte dos


genomas publicados
contm regies de gap
Genomas eucariticos
Genomas enormes, nvel
de Mb ou Gb

Por vezes decide-se


realizar uma abordagem
hierrquica para o
sequenciamento

Montagem de BACs
BAC to BAC sequencing
Mated-pair sequencing
No se sequencia o inserto inteiro
Sequenciamento das extremidades do inserto
Montagem das sequncias das extremidades
Clonagem de insertos com tamanhos variados
(em diferentes tipos de vetores)
Gaps reais e virtuais
Gaps virtuais
Conhece-se o vetor que
contm os mated-pairs
Sabe-se o tamanho ao
qual ele corresponde
(tamanho do inserto)
Shotgun do vetor em
questo

Gaps reais
No se conhece nada
sobre este gap
Pode ter qualquer tamanho
Difcil soluo
Genome coverage
Cobertura do genoma
Antes de tentarmos montar
um genoma, precisamos ter
uma quantidade de bases
cerca de 8x maior do que o
genoma
Garante que havero poucos
gaps reais
Quanto maior a cobertura, menor o
Genoma Humano pblico nmero de contigs (significando que as
molculas foram montadas por
(2001): 2,9X coverage completo)

Celera: 5,1X coverage


Passos para a montagem
Produo de sequencing
reads at 8x o tamanho
do genoma
Montagem dos contigs

Identificao de gaps
reais e virtuais
Fechamento de gaps

Publicao do genoma
Montagem de
transcriptomas
Prof. Dr. Francisco Prosdocimi
Genoma X Transcriptoma
Sequenciando ESTs
Expressed Sequence Tags
Etiquetas de sequncias
expressas

Amplificao dos genes a partir


de primers do vetor de clonagem
Pode-se produzir ESTs 3 ou 5
A EST 3 est ancorada ao poli-A

O contedo da extremidade 5 da
EST, no entanto, varia devido:
Tamanho do mRNA
Tamanho do inserto clonado
Tamanho amplificado pela
transcriptase reversa
Formas de Splicing do gene
Caractersticas das ESTs
Representam o pool de mRNAs
Possuem de 150 a ~1000 nucleotdeos
Etiquetas de seqncias gnicas
Cada clone seqenciado uma nica vez
Apresentam redundncia
Permitem a identificao dos genes mais
expressos em diferentes fases/tecidos
Permitem a identificao de splicing
alternativo
Montagem dos genes
Contigs
Cada contig representa um
gene completo
A cobertura do contig depende
da expresso de cada gene
Genes muito expressos so
mais vistos
Genes singlets
Menor evidncia
Quantidade de ESTs
sequenciadas e saturao da
biblioteca :. Diminui a redundncia;
:. Aumenta o tamanho;
Sequncias nicas :. Aumenta a qualidade.
Cada uma um gene
Sequncias quimricas
Sequence clustering
Clculo da pontuao de sobreposio
Match / Mismatch / Gap scores
Minmatch (14) / Minscore (30)

Dja
vu?
Produo de ESTs e
ORESTEs
Seqnciamento de genes expressos:
Documentar a existncia de transcritos gnicos
num transcriptoma [otorrin... e ...damonh...]

EST (Etiqueta de Seqncia Expressa)


seqenciamento nico de cada cDNA
extremidades 5 ou 3
ORESTES (ESTs ricas em ORFs)
seqenciamento nico do amplicon derivado de
cDNA por PCR inespecfico
prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs
ATG
AUG cDNA (fita +)
ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (A)18
200
5EST cDNA (fita -)
3EST (T)18

AUG cDNA (fita +)


GGCGCGCGATATCC AAATTTATTATCCATCTACG (A)18
200
5EST
cDNA (fita -)
3EST (T)18
PCR inespecfico & seu
ORESTES

+ORESTES (outros iniciadores)


AUG ampliconGGGCGCGCGATATCGAAAAATTTATAAGGCTAG
(fita +)
CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
AGATCGATCATGACTTACGGGCGCGCGATATCG (A)200
ORESTE
amplicon
cDNA (fita -)
S
Iniciador
PCR
(60C(60C)37C)
Produo de ESTs e
ORESTEs
Eplogo
Sabemos agora montar os genomas e os transcriptomas
E da?

Nmero de genes (introns e xons), elementos


regulatrios, tamanho em pares de bases
Fizemos uma anlise quantitativa e partiremos agora
para uma anlise qualitativa dos genes presentes
Quais so? O que fazem?
O que um organismo pode fazer dado que tem os genes que
tem?
A anlise genmica uma anlise de como pode
funcionar o metabolismo de um organismo
Outras anlises
transcriptmicas
Prof. Dr. Francisco Prosdocimi
SAGE
Serial Analysis of gene
expression

Utilizao de enzima de
restrio do tipo III (corta
upstream ao stio de
reconhecimento) (NlaIII)

Produo e sequenciamento de
concatmeros
Bioinformtica SAGE
Extrao e contagem das tags
Algus transcritos no geram tags com certa enzima
Tags possuem 10bp ou 17bp (+4 restr. Site)
Mapeamento de tags a genes usando alinhamento de
sequncias (1 to N, N to 1)
Tags no unvocas; repeat regions
Erros de sequenciamento atrapalham a anlise
>SAGE-WT1-A0001-A01.abd 1047 ABI Short SAGE:
GGCAGTGAATTGTAATACGACTCACTATAGGGCGAAT Tag Freq MappedGenes
TGGGCCCTCTAATGCATGTTGACGTGCACTTCCGTAG
CCTCATGTTTTATGGAATCACCTATTATGCCATGACT GCAGACCATA 1451 AB666788, U18897
TTTTCAAAACTAGGCTGTGCCATGTTTACACAGTATG AACAGTTCCA 931 NM_789654
CACACATCTTCCATGGATGTGGACAGAAAATCCTCCA
ACATGATGGCAA GCCAACTCGG 2 NM_123587
CGTGCGGATT 1 NM_123587,
A tag em azul dever ser a o Y15324, P67473,
complemento reverso da sequncia.
MB12983
Microarray
Anlise comparativa da expresso gnica em
high-throughput

Você também pode gostar