Você está na página 1de 20

Curso Terico-Prctico de Posgrado

Herramientas
informticas
para el anlisis estructural
de cidos nucleicos y
protenas
ALINEAMIENTO MLTIPLE DE SECUENCIAS

CONSTRUCCIN DE RBOLES FILOGENTICOS

2006
Nancy I. Lpez

ALINEAMIENTO DE SECUENCIAS
Comparacin

alineamiento de a pares.
Alineamiento mltiple comparando varias secuencias relacionadas
Utilidad
. Destacar regiones de similitud, divergencia o mutaciones
. Motivos, estructura y funcin en protenas. Resaltar errores en la prediccin
de la secuencia de protenas o en la secuencia misma
. Seleccionar primers de una familia de genes.
. Realizar anlisis evolutivos (filogenia)

rboles filogenticos

Cmo obtener los mejores alineamientos


Homologa.
Fragmentos que compartan regiones comunes o secuencia completa.
Estructura / Secuencia?
Editar manualmente.

Alineamientos mltiples
La premisa bsica de un alineamiento mltiple es que para
cada columna en el alineamiento cada residuo de cada
secuencia es homlogo. Esto significa que ha evolucionado
desde la misma posicin en una secuencia ancestral comn sin
insercin ni delecin.
informacin sobre estructura y funcin de protenas
modo de evolucin
filogenia. En el caso de la filogenia molecular el resultado del anlisis
depender del alineamiento previo. Inspeccionar cuidadosamente ese
alineamiento para ver que se incluye y que no.
En caso de utilizar genes que codifican protenas: usar secuencia de
protenas o de DNA.

Mtodos utilizados para realizar


alineamientos
Agrupacin (clustering) es uno de los ms utilizados.
Alineamientos ptimos requieren programas de computacin.

Programa CLUSTAL
alineamiento global para un conjunto de secuencias
Las secuencias son alineadas de a pares y los pares con puntaje
(score) ms alto son luego agrupados con otras secuencias y
los grupos (clusters) son armados de acuerdo a la similitud.
rbol gua no da informacin filogentica. Secuencias similares
ms cercanas en el rbol (archivo.dnd)
Alineamiento mltiple constituye un paso fundamental.
Hasta 1989 alineamientos a mano. ClustalW ClustalX
BioEdit

ALINEAMIENTO MLTIPLE DE SECUENCIAS


UTILIZANDO EL PROGRAMA CLUSTALW
1. Secuencias en un archivo comn en un formato compatible.
Nombre >abc
Formato FASTA
Genebank
2. Pegar archivo
3. Seleccionar opciones

Matrices
DNA identity
matrix
Gonnet 250

Resultados del alineamiento mltiple de


4 protenas

rbol gua

Archivo de datos

>s1
GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA..
.............
>s2
GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC.......
.........
>s3
GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG

...

Construccin de rboles filogenticos


Filogenia es la ciencia de estimar el pasado evolutivo.
Filogenia molecular basada en comparacin de
secuencias de protenas o de DNA.
rbol filogentico
1 alineamiento mltiple.
rbol obtenido dependiente de este alineamiento.
rbol
estructura matemtica que se usa para modelar la
historia evolutiva de un grupo de secuencias o de organismos.
rboles
. se pueden graficar de cualquier manera
. complejidad
rotacin (todas las ramas pueden rotar
alrededor del plano de sus nodos
rboles =)
.crecen de izquierda a derecha
. etiquetas son horizontales.

Construccin de rboles filogenticos


1. Definir conjunto de secuencias a analizar (DNA,
RNA o protenas) provenientes de distintos
microorganismos
2. Alinear correctamente esas secuencias
3. Aplicar mtodos adecuados para la
construccin de rboles filogenticos
4. Evaluar estadsticamente el rbol filogentico
obtenido

Nodos
Ramas
Nodos
terminales:
OTUs
(Datos)
Nodos
internos:
antecesores
hipotticos

Raiz: nodo
del cual los
otros
descienden
. Da
direccin

Patrn de ramificacin:topologa

Number of
Taxa
3

Number of
unrooted trees

Number of rooted
trees

15

15

105

105

945

945

10395

10395

135135

135135

2027025

10

2027025

34459425

Nr=(2n-3)!/[2n-2*(n-2)!], n 2
Nu=(2n-5)!/[2n-3*(n-3)!], n 3

Nr para n = Nu para
n+1

Cladograma: es el modelo bsico y simplemente muestra la distancia al antecesor comn en


trminos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo
evolutivo.
Filograma: contiene informacin adicional dada por la longitud de las ramas. Los nmeros
asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad
de cambio evolutivo. Es aditivo. Mtricos.
Dendrograma: tipo especial de rbol aditivo en el cual los extremos del rbol son
equidistantes de la raz y son proporcionales al tiempo de divergencia. Ultramtricos.

Mtodos para la
construccin de rboles
Mtodos de distancia
filogenticos
Utilizan matrices de distancia
UPGMA: Unweighted Pair Group Method with Arithmetic Mean.
NJ-Neighbour Joining. Vecino ms cercano
Minimum evolution. Utiliza el mtodo de cuadrados mnimos.

Mtodos discretos

Operan directamente con las secuencias

Parsimonia: usa un carcter. Criterio: buscar el menor nmero


de cambios evolutivos requeridos
Mxima verosimilitud (Maximum likelihood): utiliza el estado
del carcter y la distancia

Matriz de distancias
Sitios
Secuencias

1 2 3 4 5 6 7
1
2
3
4

T
A
A
A

T
A
A
A

A
T
A
A

T
T
A
A

T
T
A
A

A
A
T
A

A
A
A
T

Distancias
1 0

2 30
3 5 40
4 5 4 20
___________
1 2 34
Diferencia o divergencia entre las secuencias
.- Rpidos
.- informacin restringida al rbol

Mtodos discretos
Analizan cada columna dentro del
alineamiento y construyen el mejor rbol
que se ajusta a esa condicin
.- lentos
.- ricos en informacin. Hiptesis para cada
columna dentro del alineamiento. Puede
obtenerse informacin sobre evolucin
de sitios especficos en la molcula (Ej.:
sitios catalticos o regiones regulatorias).

Cmo comparar diferentes mtodos


de construccin de rboles?
Eficiencia : rapidez
potencia: nmero de datos requeridos para
obtener resultados razonables
Consistencia
Robustez: sensibilidad a desviaciones
Informacin sobre si los supuestos son violados.
METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS
PERO NO EXISTE

Probar rboles con ms de un mtodo

4. Evaluacin estadstica del rbol


filogentico obtenido
El test ms simple para probar si
el conjunto de datos soportan el
rbol obtenido es el del bootstrap.
Es un mtodo estadstico que
puede estimar las distribuciones
por creacin repetida y anlisis de
conjuntos de datos artificiales.
Una forma de medir el error de muestreo es tomar muchas
muestras de la poblacin estudiada y compararlas. Bootstrap
simula esto pero en lugar de muestrear de una poblacin
remuestrea los datos originando pseudorrplicas.

Valores de bootstrap ( %).


> 50 %.

Programas
ClustalW Alineamiento
Graficar con Treeview, Phylodraw
NJ-Plot
PHYLIP
MEGA 3.1 Es el ms fcil de manejar
PAUP* (POP STAR). Es el ms
sofisticado y verstil

TRABAJO PRCTICO
1. Tutorial de ClustalW
Secuencias simples
Alineamiento mltiple. Analizar. Observar rbol gua.
ClustalW para construir el rbol. Modificar opciones en la
ventana Phylogenetic tree. Mtodo utilizado por el
programa es el del NJ-Vecino ms cercano (Neighbour
Joining). Elegir entre los posibles formatos de rbol
(Neighbour, Phylip, Distance)
Con el archivo obtenido del CLustalW (. ph)entrar en el
programa Treeview y graficar el rbol. Observar distintos
tipos de rboles. Definir el outgroup

Você também pode gostar