Você está na página 1de 74

Breve História da genômica

(e da bioinformática
e do desenvolvimento de técnicas de sequenciamento)

Prof. Dr. Francisco Prosdocimi


O que é um genoma?
• Conjunto haplóide de
informações presentes no DNA de
determinado organismo
– Genomas bacterianos X
Genomas eucarióticos

• Cromossomos são formados por


uma única molécula de DNA
– Genoma humano:
22 pares de cromossomos
autossomos + X + Y

• O problema da variação – SNPs

• Estudos genômicos e o método


científico
– A era da pesquisa científica sem
hipótese
Sobre o genoma
• Consiste na anatomia molecular
de uma espécie

• Representa a descrição de todos


os genes, elementos regulatórios
ou regiões não-funcionais de um
determinado organismo

• Abre portas para estudos mais


específicos, baseados em genes
e proteínas de potencial
biotecnológico, estudos
evolutivos, explicações sobre
aspectos da biologia do
organismo e
genômica comparativa
“A seqüência é apenas o início”
J. Craig Venter
O primeiro genoma sequenciado

Sanger e o
fago Phi 174

De fato, esse tipo de


sequenciamento
manual continuou
acontecendo por
décadas...
Frederick Sanger
• Único vivo dentre os 4 indivíduos que já
venceram dois prêmios Nobel

• ~1955: publicou a primeira sequência de


aminoácidos da insulina
– Ganhou o Nobel de química em 1958
• 1964: descobriu que as proteínas de bactéria iniciavam-se
com o aminoácido formil-metionina
• 1967: desvendou a sequência do RNA ribossomal 5S
• 1975: inventou o método dideóxi para o sequenciamento do
DNA
• 1977: sequencia, pela primeira vez, o genoma inteiro
de um organismo, o bacteriófago phi X 174
– 11 genes in 5386 bases sequenciadas “à mão“
– Ganha o segundo Nobel de química em 1980
O método de Sanger, 1975
Polimerização do DNA a ser sequenciado (molde)
na presença de:
DNA polimerase
primer
tampão
dNTPs (desóxinucleotídeo)
ddNTPs (didesóxinucleotídeo)

O que faria um nucleotídeo que,


ao invés da extremidade 3’OH,
tem uma extremidade 3’H?

Como acontece a síntese de


moléculas de DNA?
http://www.youtube.com/watch?v=Mz-
4LSfecM4&feature=related (dideóxi)
O sequenciamento nas antigas
Etapa 1 Marcação do primer
Amplificação
Tipo-PCr
4 reações
necessárias, uma
para cada base

Eletroforese separa
Etapa 2
fragmentos de
Eletroforese diferentes tamanhos

Leitura manual da
sequência de baixo
pra cima
O primeiro genoma sequenciado

Sanger e o
fago Phi 174

De fato, esse tipo de


sequenciamento
manual continuou
acontecendo por
décadas...
História da PCR
• Químico, 1966
– Doutor em bioquímica, 1972
– 2 anos de pós-doutorado numa industria farmacêutica

• Deixou a academia para escrever ficção científica, foi dono de Kary Mullis, 1944
padaria por dois anos; voltou à indústria
• 1983 → Teve a idéia de utilizar um par de primers para amplificação
enquanto voltava para a casa à noite ao lado da namorada
• Avisou na empresa e deixou-se que ele ficasse trabalhando na PCR,
demorou um ano para padronizar a técnica
• Perdeu a namorada logo depois, mas ganhou o Nobel de química (1993)
• 1986 → utilização da enzima polimerase de Thermus aquaticus
– Permitiu finalmente a automação da técnica

• Controvérsias: Surfista, já foi divorciado 3 vezes, é um dos que


acredita que o HIV não causa a AIDS, e diz ter tomado bastante LSD
na década de 60/70 e que isso o ajudou a descobrir a afamada técnica!

Taq
polimerase
A era da genômica sem
sequenciador
• Máquina de PCR
• Gel de poliacrilamida

• Método principal de sequenciamento até o


fim da década de 90
Sequenciamento “moderno”
Applied Byosystems, 1986
Marcação fluorescente do ddNTP
Leroy Hood, 1938-

1 reação necessária, todas as


bases lidas ao mesmo tempo

Eletroforese separa fragmentos


de diferentes tamanhos

Leitura da automática
sequência, de baixo pra cima, por
um laser

http://www.youtube.com/watc
h?v=ezAefHhvecM
Eletroforese capilar
Evolução dos sequenciadores capilares

ABI Prism 310


(1 capilar)

ABI Prism 3100


(16 capilares)

MegaBACE
Amersham
96 capilares

ABI Prism 3700


(96 capilares)
Genoma humano
Applied Biosystems
Cromatogramas
O pacote clássico da bionformática

• Phred-phrap-consed

• Base-caller
• Assembler
• Visualizador
O base-caller
• Programa de computador
que permitiu a
automação dos
processos de
sequenciamento

• Permite identificar a
sequência de bases e
associar um valor de
qualidade a cada base
Arquivo base-called
• Resultado: dois arquivos no formato FASTA
– .fasta >8rE10.esd 743 0 743 ESD trimmed
16 16 21 21 16 18 21 17 17 19 21 19 23 19 27 26 30 36 38 41 41 34 34 36 30
– .qual 30 30 34
17 9 5 0
34 34 41 20 20 20 20 20 24 43 41 41 41 41 41 36 50 41 36 34 28 19
5 26 26 19 19 8 5 5 5 20 21 32 38 32 38 38 38 38 40 41 41 40 29 27
27 25 25 25 23 14 7 4 4 14 14 32 28 28 28 28 29 29 36 41 18 19 19 18 18 18
>8rE10.esd 743 0 743 ESD trimmed 33 44 44 44 44 44 44 43 43 44 53 53 53 53 53 53 52 52 52 43 52 52 52 52 52
AGGTTTAAACGAATTCGCCCTTACGAGAACCTCGTAATTAGTATCAGCCT 52 52 43 43 52 52 52 52 52 52 43 40 40 52 52 52 52 52 52 52 40 40 40 44 44
TTANCTTTTTCGGGATCTGTTCTGATTTTACTTCGTGACGTCGTAGCACT 36 23 24 24 24 24 29 43 43 43 43 43 47 43 43 43 41 38 38 38 35 33 31 28 23
TGCATCACTGATGATGGTAGGAATTTGATCGGCATAGTCATTCAGAATAT 19 21 19 19 21 23 16 23 26 23 25 28 41 41 41 47 47 43 41 41 41 41 41 36 36
CCTCCACGACTTCATCGATACGCTTTTCCCTGGCATTACTGTCGAGTCTG 43 44 44 44 44 37 37 37 30 30 30 44 34 37 50 44 50 34 44 44 44 44 59 44 44
GAATACTCCCCGCTATTTTGGAGCTTAAGCTGCGCTGTATAACGCAATTC 44 52 52 52 52 56 59 56 56 56 56 52 52 43 43 43 52 44 50 51 51 44 44 53 53
TTTTCGTAAAAGCTTAGGAGATGCAGTCAAGGAACGGGCCTGCATCGTAT 53 44 44 44 44 44 44 44 43 41 30 21 21 21 25 30 32 34 25 20 19 27 27 32 31
AAGCAATCCGATTACCTGAACGATCCAGAATCTCACCGCGCCGCGCACTA 23 18 18 28 30 35 47 47 47 47 41 29 29 29 29 29 41 43 43 53 53 53 44 44 44
TCTATATAGGTAAGGGCGAATTCGCGGCCGCTAAATTCAATTCGCCCTAT 44 36 41 41 44 50 53 34 44 34 34 37 37 53 53 59 53 53 56 56 53 52 52 36 36
AGTGAGTCGTATTACAATTCACTGGCCGTCGTTTTACAACGTCGTGACTG 46 52 53 37 35 38 38 38 30 38 38 38 23 23 25 28 25 25 50 53 53 53 53 53 53
GGAAAACCCTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTT 53 53 59 43 43 25 25 25 43 43 53 53 59 59 59 59 59 59 51 51 50 59 50 50 56
TCGCCAGCTGGCGTAATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAA 53 53 53 53 53 53 53 53 50 50 50 50 50 50 53 53 53 56 59 59 59 59 50 50 50
CAGTTGCGCAGCCTATACGTACGGCAGTTTAAGGTTTACACCTATAAAAG 50 50 50 50 50 53 50 59 50 50 50 50 50 59 59 53 50 50 50 53 53 53 59 59 53
AGAGAGCCGTTATCGTCTGTTTGTGGATGTACAGAGTGATATTATTGACA 53 53 59 59 53 53 53 50 50 50 53 53 53 53 53 53 53 53 50 50 50 50 50 50 50
CGCCGGGGCGACGGATGGTGATCCCCCTGGCCAGTGCACGTCTGCTGTCA 53 53 50 35 44 35 16 16 29 40 43 53 53 53 53 59 50 50 40 40 40 50 50 50 50
GATAAAGTCTCCCGTGAACTTTACCGGTGGTGCATTTCGGGGA 50 50 50 50 50 50 50 50 50 50 53 53 53 53 53 53 50 53 53 53 53 50 53 53 53
50 50 53 50 50 50 50 50 50 50 50 50 53 38 32 32 34 34 25 30 20 30 24 30 30

• EST trimming
38 36 36 36 36 31 38 36 36 36 44 44 44 59 53 53 53 53 53 53 53 53 53 53 53
46 38 32 38 29 44 44 29 29 29 29 53 36 36 41 41 41 41 36 41 26 26 26 34 32
41 41 41 36 30 18 11 11 13 17 20 23 26 16 16 7 7 8 13 13 19 21 19 22 20 21
23 28 29 31 33 29 29 29 29 29 36 36 30 26 26 23 18 20 27 35 36 43 43 20 17
– Poda 17 17 15
44 44 43
12 12 12 15 15 15 20 31 43 53 43 43 43 36 15 11 15 15 15 15 43 44
43 30 26 26 36 36 36 22 35 30 30 43 30 36 36 44 36 35 27 15 13 11
13 9 9 9 10 12 9 13 26 26 23 28 23 23 32 32 23 19 12 16 16 21 11 9 9 7 11
14 26 28 22 15 13 13 11 11 8 9 15 15 9 9 12 12 12 15 19 19 20 15 12 12 12 8
8 7 7 15 15 18 18 15 13
Qualidade de sequência
• QUAL = -10 * log_10 (P_e)
onde P_e é a
probabilidade de que a
base nomeada esteja
incorreta

• PHRED 10, 20, 30, 40


– O dogma do Phred 20
– Versão moderna do genoma
humano: “40”
Sequências no formato FASTA
• Depois do base-calling,
com todas as sequências
em mãos (descartadas as
de baixa qualidade), é
hora de montar o
genoma
• Tamanho da sequência:
~600 pb
• Tamanho do genoma
medido em Mb, Gb

• Mas será que a gente


monta tudo quanto é
genoma do mesmo jeito?
O projeto genoma humano
• 1987 – Departamento de Energia
– 1988 – NIH

• 1990 – PGH: 1ºs 5 anos


– Projeto internacional - 15 anos
– Construção de mapas físicos e
genéticos
• Plano 90: mapa de 5-2cM
• 1994: mapa de 1cM (3.000
marcadores)
– Descobrir os 50.000 – 100.000
genes
– Estudo de organismos modelo
– Ethical, Legal and Social
Implications (10% da verba)
Estratégias para
a montagem do genoma
• Sequenciadores capilares
produzem sequências de ~500-
800bp
• Genomas enormes, nível de Mb
ou Gb
• Haveria grande ceticismo
acadêmico sobre o fato de que
os genomas eucarióticos
pudessem ser sequenciado com
abordagens do tipo shotgun
• Por vezes decide-se realizar uma
abordagem hierárquica para o
sequenciamento

• Montagem de BACs – BAC to


BAC sequencing
BAC-to-BAC approach

Os primeiros anos
do projeto genoma
humano
Whole genome shotgun

E as repetições?
Funciona
mesmo?
O primeiro genoma bacteriano
• Pra bactéria, funciona sim
• Haemophilus influenzae,
1995
• Whole genome shotgun
• 1,830,140 bp (1,8Mb)
– Cromossomo circular
– 1740 protein-coding genes
– 58 transfer RNA genes tRNA
– 18 other RNA genes
• 1995, TIGR
– J Craig Venter
Os sequenciadores automáticos de DNA

 1998
ABI Prism 3700
96 x 550pb
~ 1h
 1 milhão bp/dia
 Genoma humano é
possível!
 Corrida pelo
genoma
 Consórcio público X
Celera genomics
 O boom bioinformática
A corrida pelo genoma
humano
• Venter, 1991
– 300 sequências de genes do cérebro humano
produzidas (3.000 sequências nos bancos de dados) John Craig Venter, 1946-

– Sequenciamento de etiquetas gênicas (ESTs)

• Quando a técnica de produção e sequenciamento de


cDNAs foi “descoberta”, pensou-se que isso seria
suficiente para realizar o projeto genoma humano e
conhecer todos nossos genes

• Watson, o sequenciamento de ESTs não é o


sequenciamento do genoma

• Celera Genomics X Consórcio Público


Celera Genomics
• Venter sugere que o
sequenciamento público seja
interrompido, ele conseguiria
fazer melhor e publicaria antes
– Como deixar a grande
descoberta do século, a
sequência do nosso genoma,
nas mãos de arrogantes
pesquisadores capitalistas?
NÃO!
Genoma da drosófila
• Nature, 2000
• “We have determined the nucleotide
sequence of nearly all of the ~120-
megabase euchromatic portion of the
Drosophila genome using a whole-
genome shotgun sequencing strategy
supported by extensive clone-based
sequence and a high-quality bacterial
artificial chromosome physical map”

• 13,767 protein-coding genes => ~20% of the


genome
• total of an estimated 14,000 genes

• More than 60% of the genome appears to be


functional non-protein-coding DNA involved in
gene expression control.

• About 75% of known human disease genes have


a recognizable match in the genetic code of fruit
flies, and 50% of fly protein sequences have
mammalian analogues

• Berkeley + Celera!
Fevereiro, 2001
• O genoma humano (rascunho)
• Capas da Science e Nature
– Celera – 14.8Gb – cobertura de 5.11x
– HGP – 8,4Gb – cobertura de 2.9x
• 90% scaffolds 100.000bp
– 25% scaffolds 10Mb
• Genes
– 26.558 identificados
– 12.000 preditos
• 1,1% - exons; 24% - introns 75% -
regiões intergênicas
• 2,1mi de SNPs – 1 diferença /1250bp
(genoma n)
– Menos de 1% alteram proteínas
Landmarks HGP
Estratégias de
sequenciamento
de genomas
Genoma não-codificante
Tamanho de genomas

O paradoxo do valor-C
Não foi encontrada uma correlação
eficaz entre o tamanho do genoma e a
complexidade de um organismo
National Center for
Biotechnology Information

O NCBI fornece acesso a


genomas completos de mais de
5.700 organismos. Genomas
significam tanto sequências
completas de organismos quanto
os que estão em processo de
sequenciamento.

http://www.ncbi.nlm.nih.gov
Genomas conhecidos,
17/04/2009
Genomas conhecidos,
03/03/2010
~1000 novas
espécies
sequenciadas e
depositadas em
5 meses

1576 novos
genomas
sequenciados e
depositados
Temos o genoma, mas e daí?
• Visão geral do metabolismo bioquímico
– Sabemos todos as enzimas que o organismo tem o código
para a fabricação
– Sabemos os genes que ele deveria ter mas não tem
– Sabemos se ele: metaboliza açúcares, quais deles?;
metaboliza aminoácidos, quais deles?; metaboliza lipídeos?
Genômica comparativa
• Através da comparação entre
presença/ausências/represent
atividade de famílias de genes
em organismos parecidos
conseguimos propor hipóteses
sobre como é a adaptação do
organismo ao ambiente

• Podemos clonar todos os


genes e estudar
separadamente a função de
cada um

• Podemos comparar a
sequência do mesmo gene em
diferentes espécies
Genômica comparativa
• Estudo de enriquecimento de
hierarquias de genes de alto nível
(p.ex. metabolismo de DNA)

• Estudos evolutivos de genoma


completo

• Estudos de ordem gênica


(sintenia) e rearranjos genômicos:
verificação precisa de pontos de
inversão, fusão ou quebra de
cromossomos

• Inferência de informações de
genomas conhecidos para
genomas desconhecidos
Alinhamentos múltiplos de genes
• Permite identificar
regiões mais
conservadas
• Seleção natural
molecular opera sobre
essas regiões
• Aminoácidos
conservados são tidos
como funcionalmente
mais importantes e
ajudam a compreender a
estrutura e ação da
enzima
DNA
• Alinhamento de
sequências de DNA e
proteínas

• Alinhamento de códons

• Substituições sinônimas
e não-sinônimas
– Afetam o fenótipo
– Apresentam informações
precisas sobre sítios
sujeitos à forte ação da
seleção natural
Biologia molecular e evolução
• Espécies que
apresentam genes mais
similares têm ancestrais
comuns mais recentes

Árvore evolutiva
(filogenética)
A genômica como prova última
da teoria da evolução
• Quanto mais
próximos
filogeneticamente os
organismos, mais
similares são seus
genomas

• Evidência de
ancestralidade
comum
Genótipo X Fenótipo
• Podemos ver como as
diferenças moleculares
influenciam nos fenótipos
• Estudos de SNPs e
haplótipos
Determinismo genético
• “Apenas os genes são responsáveis
por controlar as características e
comportamentos humanos”

• O fator contigente
– Acaso, ambiente, educação

• Anemia falciforme e genes para


comportamentos
– Fidelidade, homossexualismo,
pensamento liberal, religiosidade

• Modificações epigenéticas

• A herdabilidade do caráter
História genética da Islândia
• País colonizado em 874 por
noruegueses
• Não teve muita imigração, muitos
são descendentes dos primeiros
vikings (endogamia)
• Árvore genealógica para mais de
75% da população!
• Vamos sequenciar o DNA de todo
mundo!
– Medo, privacidade
• Genes (SNPs) que causam
susceptibilidades foram
encontrados: derrames, distúrbios
de pele, Alzheimer
O projeto ENCODE
• ENCyclopedia Of Dna
Elements

• Identificação de todos
os elementos
funcionais no genoma
humano

• ncRNA, miRNA,
dsRNA
Diversidade genética microbiana
• Olha ele aí de novo
• História do Venter
– TIGR
– Celera
– JCV Institute
• Metagenômica, 2004
– Mar de Sargaços,
• Sequenciamento: rRNA 16S
– 2000 espécies bacterianas
identificadas; 148 novas!
– Genômica ambiental
Next-generation sequencing
• A nova onda do
sequenciamento
• Didesoxinucleotídeos são
desnecessários
– Enterro do Sanger
• Sequenciamento por
síntese
• Utiliza ainda nucleotídeos
marcados por
fluorescência
• Processamento de
imagem computacional
de altíssima-resolução
454 Life Sciences
• Pioneira em
sequenciamento de nova
geração
• Completou o genoma do
Watson em 2008
• The complete genome of
an individual by
massively parallel DNA
sequencing. Nature. 2008
Apr 17;452(7189):872-6.
• http://www.youtube.com/
watch?v=bFNjxKHP8Jc
Genômica individual
• Tecnologia 454
• Genoma diplóide
• Adivinhe quem
sequenciaram?
• DNA de Watson e Venter
está disponível publicamente
nos bancos de dados
– Cerca de dez outros genomas
já foram sequenciados
• 310 genes para doenças
– Watson tem mutação em 23
deles
– http://www.youtube.com/watch
?v=CLDrcPHFxEA
Illumina technology
• Ligação de adaptadores
• Amostra hibridiza com
placa de vidro (flow cell)
• Faz-se a primeira fita,
eluição
• Sequencia-se por síntese
Flow cell
Põe uma base, tira quatros fotos
• Sequenciamento por síntese
• Fotos em diferentes
comprimentos de onda,
dependendo de cada
fluorocromo
• A foto que iluminar mais, é a
última base
• Processamento de imagem
ultra-sofisticado
– Nanotecnologia
– Microscópio óptico
• http://www.youtube.com/watch
?v=77r5p8IBwJk&NR=1
Farmacogenômica
• Tipar os seres
humanos de acordo
com sua sensibilidade
a determinada droga

• Medicina individual

• Quantidade de droga
a ser ingerida por
haplótipo
Genômica no Brasil

Xylella fastidiosa
Primeiro
fitopatógeno
sequenciado
Capa da nature,
2000
Consórcio
paulista
Consórcio Brasileiro
(Genoma nacional)
A rede Genoma
Genomas regionais brasileiros

2003
http://brgene.lncc.br
Conclusões
• A técnica de sequenciamento
de genomas evoluiu
enormemente nos últimos
anos
• Genômica individual é uma
realidade
• Sanger e Venter como
elementos-chave
• Empresas tiveram papel
decisivo
• História da genômica é
temperada por questões
econômicas, a indústria da
biotecnologia
Adendo: Epigenômica
Prof. Francisco Prosdocimi
Epigenética
• Mudanças no fenótipo ou na
expressão gênica causadas
por mudanças não-
mutacionais
• Holliday, 1990
– The study of the mechanisms
of temporal and spatial control
of gene activity during the
development of complex
organisms
• O epigenoma...
– Metilação do DNA
– Remodelamento de cromatina
• O código das histonas
Modificações epigenéticas
• Permitem uma regulação fina
da transcrição em
determinados locos
• Determina quais regiões da
cromatina estão mais ou
menos abertas para o acesso
da maquinaria de transcrição
• Acredita-se hoje que os
mecanismos epigenéticos
sejam responsáveis pela
diferença de expressão gênica
entre tecidos
– 1 genoma X 250 epigenomas
Metilação do DNA
• Ilhas CpG
– C’s antes de G no genoma
são muitas vezes mutados
para T
– A quantidade de CpG no
genoma é menor do que
seria de se esperar pelo
acaso
• Código selecionado
evolutivamente
– Presentes em regiões
promotoras de
organismos eucarióticos!
– Mecanismo herdável
Tratamento com bissulfito
• Permite a identificação em
larga-escala das citosinas
metiladas
• É importante que o DNA esteja
em fita simples para que não
haja modificação parcial das
citosinas
• Tratamento bioinformático
posterior para identificação
das regiões metiladas
• Acesso diferenciado pela
maquinaria de transcrição
A cromatina
• Estrutura de
empacotamento
do DNA nuclear
• Nucleossomos
• Histonas
– Carga positiva
Acetilação de histonas

Histonas desacetiladas
 cromatina fechada
 expressão gênica inativa
Modificações pós-traducionais nas
histonas influenciam a expressão gênica
Imunoprecipitação da cromatina
• ChIP
– Chromatin
Immunoprecipitation

• Liga-se o nucleossomo a
anticorpos específicos para
histonas modificadas
• Libera-se o DNA e sequencia-
se
• Permite reconhecer as regiões
do DNA ligadas em histonas
com determinadas
modificações pós-traducionais
O código das histonas
• Estudos que almejam
identificar a relação
entre
– Código de
modificações pós-
traducionais em
histonas
– Expressão gênica
Conclusão: epigenômica
• Os mecanismos de
modificações pós-traducionais
em histonas e de metilação do
DNA interferem na expressão
gênica e podem ser
quantificados

• Existe uma ordem neste


processo?

• Existirão realmente
epigenomas específicos para
cada tipo celular?

Você também pode gostar