Escolar Documentos
Profissional Documentos
Cultura Documentos
mltiples secuencias
Rodrigo Santamara
Alineamientos de
mltiples secuencias
Introduccin
Motivacin
Definicin
Usos
Algoritmos
Benchmarking
Visualizacin
Bases de Datos
S
2
Introduccin
(alineamiento de pares)
S Hemos visto cmo comparar una secuencia con muchas
Motivacin
Definicin
Pasos bsicos
seleccionar:
Las secuencias homlogas a alinear
2. El software que utilice una funcin de puntuacin ptima
3. Los parmetros adecuados (fundamentalmente huecos)
1.
Usos tpicos
S Dar informacin acerca de la funcin, estructura y evolucin de
una secuencia
filogenticos
Alineamientos de
mltiples secuencias
Introduccin
Algoritmos
Mtodos exactos
Progresivos Clustal
Iterativos MUSCLE
Consistencia T-Coffee
Estructura
Benchmarking
Visualizacin
Bases de Datos
8
Algoritmos
Mtodos exactos
Alineamiento progresivo
Aproximaciones iterativas
Mtodos basados en la consistencia
Mtodos basados en la estructura
Mtodos exactos
Alineamiento progresivo
S Progresivo:
S Calcula alineamientos de pares entre las secuencias consideradas
S Elige el mejor alineamiento de entre ellos
S Aade progresivamente ms secuencias al alineamiento
11
Clustal
fases
1.
2.
3.
Dos versiones:
S ClustalW (lnea de comandos)
S ClustalX (interfaz grfica)
12
Las puntuaciones
se traducirn a
distancias para que
puedan usarse para
generar el rbol
13
Mejor
alineamiento
15
de pares
S Si alguna coincide, se aade al alineamiento de pares, dando lugar
17
. coincidencia
: coincidencia alta
* coincidencia exacta
ClustalW y huecos
Aproximaciones iterativas
progresivo
S Luego modifican el alineamiento mediante programacin
20
MUSCLE
S http://www.ebi.ac.uk/muscle
21
MUSCLE
Aproximaciones basadas
en la consistencia
S Esta aproximacin incorpora la informacin de las distintas
T-Coffee
S Algoritmo
S Calculamos todos los alineamientos de pares globales entre secuencias,
T-Coffee
Aproximaciones basadas
en la estructura
S Las estructuras terciarias evolucionan ms
Alineamientos de
mltiples secuencias
Introduccin
Algoritmos
Benchmarking
Visualizacin
Bases de Datos
S
27
Benchmarking
N
1
29
residuos
SPS
S Sea un par de residuos Aij y Aik
S pijk es
S 1 si Aij y Aik estn alineados en nuestro alineamiento y en el de referencia
S 0 en cualquier otro caso
referencia
pijk=1
pijk=0
A3,4 y A3,5
30
SPS
! !p
Si =
ijk
!S
SPS =
i=1
Mr
!S
ri
i=1 31
Conjuntos de datos
de Benchmark
32
Conclusiones de los
estudios de Benchmarking
S Aadir ms homlogos a un MSA mejora su precisin
S Para grupos de secuencias con baja identidad la precisin se reduce,
MSA, excepto
Alineamientos de
mltiples secuencias
Introduccin
Algoritmos
Benchmarking
Visualizacin
Bases de Datos
S
34
Logo de secuencia
fi*Ri
35
Logo de secuencia
S Ri = log2(s) - (Hi - en)
S s es el n de elementos (4 para nucletidos, 20 para aminocidos)
S n es el n de secuencias en el alineamiento
H i = !" fi * log 2 fi
S fi es la frecuencia relativa del residuo en la posicin i
s !1
en =
2 * ln(2)*
n
36
Logo HMM
Como un logo de secuencia, pero:
1) La anchura de las columnas depende de la probabilidad de
que se pase por el estado principal correspondiente
2) Las barras rosas indican inserciones, su anchura depende de
la probabilidad de que se entre en su estado de insercin
37
Alineamientos de
mltiples secuencias
Introduccin
Algoritmos
Benchmarking
Visualizacin
Bases de Datos
S
38
Bases de Datos
S Algunos ejemplos
S Pfam
S SMART
S CDD
39
Pfam
40
Pfam: globinas
41
HMMER
S Herramienta de bsqueda de homlogos de protenas en BBDD
1. Toma como entrada un alineamiento mltiple de protenas
2. Construye su perfil HMM
3. Busca en BBDD por homlogos que coincidan con el perfil HMM, y
los alinea.
S
42
SMART
43
CDD
o SMART
S Con el propsito principal de identificar dominios conservados
S Para ello utiliza RPS-BLAST, un mtodo ms sensible que BLAST
InterPRO
S Recurso que integra la mayora de las BBDD de alineamiento
S Cada BD usa un algoritmo y unos mtodos de bsqueda distintos
S Unos usan HMMs, otros se centran en dominios, otros en motivos
S Esta BBDD integrada facilita la exploracin de las caractersticas de
SMART y TIGRFAMs
45
Alineamientos de
mltiples secuencias
Introduccin
Algoritmos
Benchmarking
Visualizacin
Bases de Datos
MSA de secuencias genmicas
S
46
de secuencias genmicas
47
48
49
Algoritmos
S Los algoritmos ms usados para MSA genmico son:
S TBA divide el genoma en bloques de secuencias que alinea
50
Ejercicio
sesin anterior
S Buscar mediante BLAST secuencias homlogas en su especie
S Realizar un estudio con distintos alineamientos mltiples de
51
Resumen
52
53
Lecturas adicionales
54
55