Escolar Documentos
Profissional Documentos
Cultura Documentos
Comparacin de Secuencias
Fundamentos de Informtica y Bioinformtica en
Biotecnologa
Curso 2015/2016
Departamento de Ciencias de la Computacin e
Inteligencia Artificial
ndice
Introduccin
Tipos de alineamientos
Puntuacin de alineamientos
Mtodos de alineamientos de secuencias a
pares
dot plot
programacin dinmica
blast (k-tuple)
Mtodos de alineamiento de
secuencias a pares
Matriz de puntos
Programacin dinmica
Mtodos de longitud de palabra
(k-tuple BLAST)
BLAST (Basic Local Alignment Search
Tool)
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Encuentra las regiones de similitud entre secuencias locales.
El programa compara secuencias de nucletidos o protenas con bases de datos de
secuencias y calcula la significancia estadstica de concordancias. BLAST puede ser usado
para inferir relaciones funcionales y evolutivas entre las secuencias, as como ayudar a
identificar a miembros de familias de genes.
Curso 2014/2015
Departamento de Ciencias de la Computacin e Inteligencia Artificial
BLAST (Basic Local Alignment Search
Tool)
Algoritmo
Construccin de un diccionario con todas las
palabras de longitud n en la query (secuencia query
sobre la que queremos encontrar informacin)
w = 11 (ADN)
w =3 (protenas)
!ACGAAGTAAGGTCCAGT!
!
! ACG! query
!! CGA!
!! GAA!
!! AAG!
!! AGT!
!! GTA!
!! TAA!
!! AAG!
!! AGG!
!! ! ! ! !...!
! ! !!
BLAST (Basic Local Alignment Search
Tool)
DB
DB seq2
seq3 seqm
BLAST (Basic Local Alignment Search
Tool)
Paso 2: Escanear la base de datos para encontrar
un hit entre palabras de la query y de la base de
datos.
! !
BLAST (Basic Local Alignment Search
Tool)
Paso 2.2:
Localizar las
palabras
coincidentes
en las
secuencias
de la base de
datos
BLAST (Basic Local Alignment Search
Tool)
Paso 3: Para cada palabra coincidente, se extiende el
alineamiento base a base en las dos direcciones para
encontrar un alineamiento con un score mayor que S (MSP/
HSP maximal segment pair).Blast permite gaps
Eleccin del tamao de palabra
BLAST defaults
k=11 (DNA)
k=3 (proteins)
E-value
0 10-5 10-2
Homology
Comparacin de E-values y P-values
Query
Base de
Datos
BLAST resultaados: Lista de hits
Ejemplo
>gb|BE588357.1|BE588357 194087 BARC 5BOV Bos taurus cDNA 5'.!
Length = 369!
E-value (Expectation)
Query: 81 SGDLSMLVLLPDEVSDL 97
+GD+SM +LLPDE++D+
Sbjct: 259 AGDVSMFLLLPDEIADV 275 HSP
Interpretacin de los resultados
Frame
BLASTX Proteina Trans. DNA
Gapped
Frame
TBLASTN Trans. DNA Proteina
Gapped
PSI-BLAST:
BLAST produce muchos hits
Se alinean y se genera una matriz de posiciones (PSM)
Esta matriz con informacin de las secuencias se utiliza para la siguiente
bsqueda.
PHI-BLAST:
utiliza patrones de expresiones regulares para ejecutar la bsqueda (e.g.
[AP]-P-P-[AP]-Y patrn de un motivo de prolina)
Tema 1: Introduccin a la informtica
For DNA, w >= 11. Only include the list of all contiguous
w-mers in the query sequence. There will be totally n
w + 1 words.
Common words are removed to avoid spurious hits
Why 11?
Each nucleic acid can be represented by 2 bits. Thus 4 Nucleic
Acids can be compressed into 1 bytes.
11 = a + 4 + 4 + b, (a, b = 0 ~ 3)
Thus we can compare 2 bytes at a time. Thats 8 Nucleic Acids a
time!
Step 1: generate word list
For protein, w=3, all possible w-mer words
that score at least T when comparing with
some words in the query sequence will be
generated. Maximum is
n * 20 ^ 4. (Typically about 50 words for
each residue in the query sequence.)
Common words will have low scores even if
exactly matched to query words, thus
reduces non-interesting hits.
Step 2: Scan for a Hit
Option 1:
Lookup table (index or hashing)
Option 2:
FSA. More efficient. Since only one character are
read to know which state it is in. For example,
consider sequence ATGTATCG
Word1: ATGTATC
Word2: TGTATCG
T C/word1 G/word2
state0 state1 state2
A T C