Você está na página 1de 49

UFPel | CDTec | PPGB

Plataformas de NGS
Frederico Kremer

Pelotas | 2016
Plataformas
Sequenciamento de Sanger

Desde a sua publicação, em 1977, o método de


Sanger vem sendo amplamente utilizado como
padrão-ouro para diversas aplicações em biologia
molecular.

Usualmente, os sequenciadores automáticos


baseados em Sanger são capazes de ler até 96
amostras por vezes, com um tamanho de
fragmento médio de aproximadamente 1.000 bp (1
kb).

A quantidade de pares de base sequenciadas em uma rodada é chamada


throughput (Este termo também pode se referir ao número de fragmentos).
Sequenciamento de Sanger

Em um projeto genoma é necessário o sequenciamento de um grande número de


fragmentos de forma se seja possível se montar, ao menos parcialmente, a
sequencia do(s) cromossomo(s) do organismo de interesse.

Logo no começo dos projetos genoma, mesmo para bactérias, era necessários
centenas de sequenciadores funcionando em paralelo para se obter a sequencia
dos fragmentos necessários.

Por conta disso, os primeiros projetos


genoma eram executados através de
consórcios, muitas vezes internacionais, e
custaram milhões de dólares.
Roche 454

Em 2004 a empresa Roche lançou a primeira linha de


sequenciadores de alto throughput, a 454.

Esta foi a primeira linha de sequeciadores a não ser


baseada no método de Sanger, mas sim em uma
nova abordagem denominada pirossequenciamento.

Por prover um maior volume de dados, com menor


custa-por-base e de forma mais rápida e paralela,
este sequenciadores foram denominados NGS (Next
Generation Sequencing).

Posteriormente, o termo NGS foi extendido para as


demais plataformas de alto throghput.
Roche 454

Em 2004 a empresa Roche lançou a primeira linha de


sequenciadores de alto throughput, a 454.

Esta foi a primeira linha de sequeciadores a não ser


baseada no método de Sanger, mas sim em uma
nova abordagem denominada pirossequenciamento.

Por prover um maior volume de dados, com menor


custa-por-base e de forma mais rápida e paralela,
este sequenciadores foram denominados NGS (Next
Generation Sequencing).

Posteriormente, o termo NGS foi extendido para as


demais plataformas de alto throghput.
Roche 454: pirossequenciamento
Roche 454: pirossequenciamento
Roche 454: problemas

• Sequencias homopoliméricas tendem a gerar sinais mais intensos, mas em


alguns casos é difícil determinar o tamanho correto, o que leva ao surgimento
de inserções e deleções (INDELs).

• Para resolver isso, diversos algoritmos foram desenvolvidos para corrigir as


leituras antes das análises propriamente ditas.
Applied BioSystems SOLiD

Em 2006, a empresa Applied BioSystems, atualmente pertencente à Thermo


Fisher, lançou a plataforma ABI SOLiD, baseada em método de sequenciamento
baseado em ligase de alto throughput.

O SOLiD (Sequencing by Oligonucleotide Ligation


and Detection) utiliza uma PCR em emulsão com
bilhões de fragmentos curtos (30-50 pb), seguida
de reações de ligação de dinucleotídeos.

Cara par de nucleotídeos incorporado gera um


sinal luminoso, que é processado e usado para
reconstruir a sequencia de cada fragmento.
Applied BioSystems SOLiD
Applied BioSystems SOLiD
Applied BioSystems SOLiD
Applied BioSystems SOLiD:problemas

A plataforma SOLiD usa leituras muito


curtas (short-reads), o que dificulta a
montagem de genomas que apresentam
regiões repetitivas.

Além disso, o throughput é muito alto, o


que exige uma grande capacidade
computacional para a montagem de um
genoma sequenciado por esta plataforma.

Os arquivos de sequenciamento de um
genoma de bactéria podem pensar mais de
20 Gb, e são necessários pelo menos 100
Gb de memória RAM (!!!) para a
montagem.
Illumina Solexa

Pouco após o lançamento do 454, outras empresas começaram a investir no


desenvolvimento de plataformas se sequenciamento.

Em 2007 a empresa Illumina adquiriu a Solexa, que estava desenvolvendo um


novo método de sequenciamento denominado SBS (Sequencing by Synthesis).

As plataformas Illumina vem sendo


adotadas como padrão para um grande
número de aplicações em genômica,
transcriptômica e metagenômica.
Illumina Solexa:SBS
Illumina Solexa: problemas

Os principais erros associados às plataformas da Illumina são:

Decaimento da qualidade das bases ao longo das leituras.

Substituição de bases.
IonTorrent

As plataformas de sequenciamento IonTorrent


adotam uma abordagem baseada em pH para
identificar a incorporação das bases.

Neste caso, diferente do 454, SOLiD e Illumina, não


são utilizados sinais luminosos, mas sim micro-
pHmetros que detectam a liberação de ions H+ para
milhões de fragmentos ao mesmo tempo.

Com o lançamento do equipamento IonProton, o


IonTorrent foi a primeira plataforma a atingir a linha
do “genoma (humano) por 1.000 dolares”.
IonTorrent
IonTorrent
IonTorrent: problemas

O IonTorrent tem o mesmo problema do 454 no que diz respeito às regiões


homopoliméricas.

Em comparação às plataformas da Illumina, a taxa de erro é muito maior, apesar


do custo por reação ser menor.

Problemas com o chip loading.


PacBio

As plataformas 454, Illumina, SOLiD e IonTorrent geram leituras de tamanho


menor que 500 bp, denominadas short-reads.

O uso de short-reads dificulta a montagem de genomas complexos, sobretudo


quando existe regiões repetitivas.

Para resolver isso a empresa PacBio


desenvolveu o primeiro método para
sequenciamento de leituras longas (long-
reads).
PacBio
PacBio

O método da PacBio permite a detecção da


amplificação de fragmentos individualmente, sem a
necessidade de amplificação. Isso reduz os erros
causados pela amplificação, e permite a detecção
de bases modificadas.

A plataforma vem sendo amplamente empregada


para complementar sequenciamentos de genomas,
por conta de suas leituras longas, e na detecção de
alterações epigenéticas (ex: metilação).
PacBio: problemas

A taxa de erro mas leituras da PacBio é superior a das plataformas de short-read,


sendo recomendado o uso de leituras da Illumina para correção de erro.

Apesar do throughput ser menor ao das plataformas de short-read, o custo de


equipamento e preparo de bibliotecas também é muito maior, o que torna a
plataforma inviável para o sequenciamento de genomas eucaritóricos.
Oxford Nanopore

A plataforma de sequenciamento Oxford Nanopore foi a utilizar o sistema de


detecção com base em nano-poros imobilizados em membrana.

A detecção dos nucleotídeos é feita através da análise da variação do potencial


elétrico na membrana, que é alterado de acordo com a passagem do fragmento
de DNA.
Oxford Nanopore

O sequenciador é portátil, tendo o tamanho de um pendrive, e parte de sua


estrutura é descartável.
Oxford Nanopore
Oxford Nanopore: problemas

A detecção das bases não é feita uma-por-uma, mas sim em grupos sobreponíveis
de tamanho fixo K (ex: 5).

Em alguns casos, o sequenciador não consegue detectar a sequência do grupo, o


que acarreta no aparecimento de longos gaps nos fragmentos.

O throughput ainda é baixo, apesar dos fragmentos serem muito grandes.

O tamanho do arquivo final é muito grande (> 100 Gb para um genoma de


bactéria).

Pouco disponibilidade de programas e protocolos para análise dos dados.


Comparação
Bibliotecas
Bibliotecas de sequenciamento: fragmentação

O preparo do DNA para o sequenciamento dependerá da plataforma e do


objetivo pretendido.

O primeiro passo para o preparo de uma biblioteca de sequenciamento é a


fragmentação.

Diferentes métodos podem ser utilizados para fragmentação, incluindo os físicos e


enzimáticos.

Exempos de métodos físicos: temperatura, nebulização e sonicação.

Exemplos de métodos enzimáticos: enzimas de restrição.


Bibliotecas de sequenciamento: seleção de tamanho

Após a fragmentação, os fragmentos com


tamanho compatível com a química da
plataforma devem ser selecionados.

A seleção de tamanho é comumente feita


através de corrida em gel.

Em alguns casos é necessário se repetir várias


vezes a fragmentação, até que a quantidade
certa de DNA nos fragmentos selecionados seja
alcançada.

É possível também se enriquecer a biblioteca


com PCR.
Bibliotecas de sequenciamento: tipos de bibliotecas

Single-end (fragmento):

Leitura

paired-end (fragmento):
Leitura #1 Leitura #2

Espaçamento curto (<< 1 Kb)


Mate-pair (fragmento):

Leitura #1 Leitura #2

Espaçamento longo (>>1 Kb)


Qualidade
Phred Score

O processo pelo qual o sequenciador converte o sinal detectado em uma


sequência de nucleotídeos é denomiando chamada de bases (base calling).

Com base no sinal detectado é possível se determinar não só a sequência, mas o


quão confiável foi a detecção a partir de um sinal esperado para aquela base.

A probabilidade de uma base ter sido detectada erroneamente é represetada pelo


Phred score (Q).
Phred Score: exemplo – Illumina paired-end
Aplicações
Whole-Genome Shotgun

• Whole-Genome Shotgun (WGS).

• Sequenciamento de todo o genoma.

• Sequenciamento → Montagem → Anotação.

• Montagem pode ser de novo ou por referência.

• O NGS possibilita que o sequenciamento de um


grande número de genomas em um curto
espaço de tempo.

• Serve de base para diversos estudos, como pan-


genoma, genômica comparativa, mineração de
genomas...
Targered Sequencing

Consiste no sequenciamento de uma ou várias


regiões específicas do genoma, sendo
normalmente utilizado para a detecção de
mutações com alta cobertura.

No caso do sequenciamento de exomas,


apenas as regiões de exons são sequenciadas.

É amplamente utilizado na análise de


mutações, sobretudo em genomas grandes,
como o humano.
Variant Calling

Consiste na análise de variantes através da comparação das leituras do


sequenciamento com uma sequência de referência.

Permite a identificação de SNPs, INDELs (naturais), alterações no número de


cópias e rearranjos estruturais.
Whole-transcriptome shotgun (WTS)

Similar ao WGS, mas utiliza como base o cDNA, e não o DNA genômico, como
base.

Da mesma forma que o WGS pode ser usado para a montagem de novo do
transcriptoma ou para montagem por referência, usando o genoma como base.

Possibilita a análise de genes expressos e diferencialmente expressos.


RNA-Seq diferencial

O RNA-Seq diferencial (deRNA-Seq) consiste


na comparação dos genes expressos por um
menos conjunto de células em diferentes
condições.

Os genes são mais expressos em relação ao


controle são denominados up-regulated, e os
que são menos expressos são denominados
down-regulated.

A análise é feita a partir da contagem de


leituras que sobrepõe cada genes, nas
diferentes condições, seguida de uma
normalização e análise estatística.
Metagenômica

Consiste no sequenciamento de uma amostra contendo diferentes organismos.

Possibilita a identificação em larga escala de organismos e genes presentes em um


determinado local.
Metagenômica
Epigenômica

Através da detecção de bases modificadas é possível se identificação regiões


metiladas no genoma, o que permite a análise de modificações epigenéticas.

Plataformas como Illumina e PacBio oferecem suporte à este tipo de análise.


Epigenômica
Dentre outras ...
Obrigado!

Você também pode gostar