Escolar Documentos
Profissional Documentos
Cultura Documentos
Rodrigo Santamara
Secuenciacin
Secuenciacin de ADN
Secuenciacin Sanger
Pirosecuenciacin
Fabricantes
Secuenciacin de Genomas
Secuenciacin de Transcriptomas
Perspectivas
Secuenciacin de ADN
S Secuenciacin de ADN:
S Determinar la secuencia de nucletidos de una muestra de ADN
Secuenciacin de Sanger
trifosfato. Sanger usa en su lugar ddNTPs, sin los dos grupos -OH
Secuenciacin de Sanger
Secuenciacin Sanger
http://www.scq.ubc.ca/genome-projects-uncovering-the-blueprints-of-biology/
Pirosecuenciacin
a)
b)
c)
d)
e)
f)
g)
Pirosecuenciacin
S Ventajas
S Muy rpido (hasta 700Mbps por ejecucin)
S Ms barato que Sanger
S Precisin bastante alta
S Desventajas
S No puede generar secuencias muy largas (<1Kbs)
S Problemas para medir homopolmeros (secuencias de varios
nucletidos iguales)
Fabricantes de secuenciadores
S Roche
S Familia de secuenciadores 454
S Versin paralelizada de la pirosecuenciacin (enzima pirasa)
S Illumina
S Familia de secuenciadores Solexa
S Utilizan secuenciacin de terminacin reversible de ciclo
S Applied Biosystems
S Familia de secuenciadores SOLiD
S Secuenciacin basada en ligacin (enzima ligasa)
Secuenciacin
Secuenciacin de ADN
Secuenciacin de Genomas
Fragmentacin Shotgun
Ensamblado
Programas y formatos
Secuenciacin de Transcriptomas
Perspectivas
Secuenciacin de genomas
fragmentacin aleatoria
Secuenciacin de genomas
S Terminologa
S BAC (Bacterial Artificial Chromosome): constructo de ADN que
Cobertura (coverage)
S
probabilidad de un aminocido
cualquiera no est cubierto
Shotgun sequencing
S El ADN genmico se fragmenta
aleatoriamente (shotgun)
S Y se almacenan en bibliotecas
obteniendo secuencias
desordenadas
S
Ensamblado
secuencia mayor
genoma
secuenciado
genoma no
secuenciado
fragmentos
secuenciados
Tipos de ensamblado
S Segn el fragmento
S Secuenciacin de fragmentos (genoma)
S Secuenciacin de ESTs (transcriptoma)
S Ms sencillo al ser ms pequeo
Alineamiento y mapeo
fragmentos
sin alinear
alineamiento
contig
fragmentos
mapeado
scaffold
genoma de referencia
Algoritmos de ensamblado
S Su fundamento son los algoritmos de alineamiento
S Algoritmo avaricioso
1. Calcular alineamientos dos a dos entre todos los fragmentos
2. Elegir los dos fragmentos con mayor solapamiento
3. Fusionarlos en un nico fragmento
4. Repetir 2 y 3 hasta que no haya fragmentos solapados
S
algoritmo de ensamblado
Transformacin de
Barrows-Wheeler (BWT)
S Tcnica para optimizar memoria y
detectar alineamientos
1. Aade un carcter de terminacin
(p.ej. $ @) al final de la secuencia S
2. Calcula todas las rotaciones de S,
creando una matriz M
3. Ordena alfabticamente las filas de M
4. Toma como salida la ltima
columna, S
principio-fin (LF):
S La i-sima ocurrencia de un carcter
en S corresponde a la i-sima
ocurrencia de dicho carcter en S
Imgenes de Wikipedia
BWT
Optimizacin de memoria
ms sencilla y eficiente
BWT
Recuperacin
S Recuperacin de S
1. Hacemos una matriz M con una sola
columna S
2. Ordenamos la matriz alfabticamente
3. Aadimos a su final S como columna
4. Volvemos al paso 2 hasta que hayamos
BWT
Bsqueda de fragmentos
un fragmento
Programas de ensamblado
S Maq y SOAP:
S No usan BWT si no hashing (ms lento y ocupa ms)
S Permiten alineamientos con huecos
S Burrows-Wheeler Aligner (BWA)
S Utiliza la transformacin de BWT para optimizar recursos de memoria y
alineamiento
S Bowtie
S Usa BWT con una bsqueda mejorada para permitir mismatches
S Muy rpido y bastante preciso
S
Programas de
ensamblado de novo
S Velvet
S Zerbino et al.
S ABySS: ensamblador de novo en paralelo
S Simpson et al.
S Utiliza bowtie para el alineamiento
S Utiliza grafos de De Brujin para la creacin del scaffold
S Herramienta para visualizacin del ensamblado: ABySS-Explorer
S Versin para ensamblado de transcriptomas: Trans-ABySS
Bowtie
workflow de ensamblado
con Bowtie
S Workflow (o pipeline): secuencia de instrucciones/uso de
fragmentos
(.fastq)
BWT bowtie-build!
referencia
indexada
(.ebwt)
alineamiento
bowtie!
alineamiento
(.bwt)
Fastq
Solexa
S Fichero tpico con las lecturas de
que la secuencia)
@HWI-EAS225:3:1:2:854#0/1 !
GGGGGGAAGTCGGCAAAATAGATCCGTAACTTCGGG !
+HWI-EAS225:3:1:2:854#0/1 !
a`abbbbabaabbababb^`[aaa`_N]b^ab^``a !
NCBI
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36!
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC!
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36!
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC!
Fastq
S La calidad es una valor determinado por la probabilidad de
Fastq
Formato .bwt
strand
lecturas repetidas en la
referencia
mismatches
donde:base1>base2
localizacin
nombre de
la lectura
HWI..53
HWI..91
HWI..66
HWI..96
HWI..76
nombre de
la referencia
+
+
+
+
chr10
chr10
chr10
chr10
chr10
82487666
76102534
107789719
134657385
24407979
secuencia de la lectura
calidad de la lectura
ACTGCTCTCGTCAAAGCT
GTTTGTGTGTGTGTGT
AAAAGGTCGAAGAAGTTA
GGGGTTCTCAGGGTGCTG
CTCATACATTACTTAC
=B3CB6+)=,:51AB?=4
>7B?02:6=6A58;;;
+A9)6@9C+90,25B>7@
*(8=@)@55((&7?@A;7
?BC=8')/>C>-><'?
52
158
0
0
0
8:T>G!
!
8:A>G!
2:T>G!
6:A>C!
Consideraciones
Anlisis post-alineamiento
S Una vez tenemos el alineamiento, para poder extraer
Secuenciacin
Secuenciacin de ADN
Secuenciacin de Genomas
Secuenciacin de Transcriptomas
RNA-Seq
Algoritmos
Perspectivas
Secuenciacin de
transcriptomas
S Es la fusin natural de la filosofa de anlisis de expresin
RNA-seq
Lecturas exnicas
Lecturas poli-A
Anlisis
por un fabricante
S Splice variants: expresin de los distintos transcritos posibles
TopHat
genoma de referencia
Cufflinks
S Parte de TopHat, un alineamiento que
ArrayExpressHTS
ArrayExpressHTS
library(ArrayExpressHTS)
e <- ArrayExpressHTS("E-GEOD-16190")
S Descarga los datos del experimento y ejecuta el anlisis de
algoritmos)
S
http://www.ebi.ac.uk/Tools/rwiki/Wiki.jsp?page=ArrayExpressHTS%20Main%20Page
Secuenciacin
Secuenciacin de ADN
Secuenciacin de Genomas
Secuenciacin de Transcriptomas
Perspectivas
Perspectivas
Coste ~20.000
S El nmero de genomas
secuenciados aumenta
exponencialmente
Perspectivas
de un 1%
S Se pueden comprimir a
La carrera por el
genoma a 1000 $
S En 2003, la Fundacin para la Ciencia
a 15.000 $
Tcnicas de secuenciacin de
tercera generacin
S Nanoporos
Nanoporo
(seccin vertical)
DNA
http://www.ks.uiuc.edu/Research/nanopore/
Tcnicas de secuenciacin de
tercera generacin
S Otras tcnicas
S Secuenciacin con microfluidos
S http://en.wikipedia.org/wiki/Microfluidic_Sanger_sequencing
S Microscopa de electrones
S
http://en.wikipedia.org/wiki/Transmission_electron_microscopy_DNA_sequencing
S Etc.
el anlisis
Persepectiva
Perspectiva
http://www.1000genomes.org/
Resumen
Cuestiones a debate
Lecturas adicionales
Ejemplo: Bowtie
humano
S http://www.lcg.unam.mx/~compu2/cei/data/chr10.fa.gz
Ejemplo: Bowtie
S El resultado de la transformacin son varios ficheros con
extensin .ebwt
S Algunos tienen tambin .rev., son los ficheros necesarios para hacer la
Opciones
q para lecturas .fastq, -f para lecturas .fasta, --sam para salida en .sam
IMPORTANTE: controlar los parmetros es fundamental para evitar ejecuciones muy pesadas.
Mantened bajo el n de mismatches permitidas y el n de coincidencias a devolver
Ejemplo: Bowtie
secuencia de
referencia
chr10.fa
bowtie-build chr10.fa chr10!
secuencia
transformada
chr10.n.ebwt
chr10.rev.n.ebwt
124A_2A8_130_50.clean.fq
lecturas
alineamiento
/mapeo
aln.bwt