Métodos de Distancias y Prueba de Bootstrap

Tema 5: Mtodos de distancia y prueba de bootstrap
Inferencia filogentica molecular Mtodos de distancia

Tipos de datos:
- caracteres: proveen informacin sobre cada OTU individual
- distancias: cuantificacin de la dis-similitud entre pares de OTUs
Caracter: (caracterstica o variable independiente bien definida que en un OTU puede
presentar dos o ms estados mutuamente excluyentes; estados de caracter)
- cuantitativos (est. de car. generalmente contnuos; ej. altura)
- cualitativos
(est. de car. discretos; binarios o multiestado; gralte. revesibles)
Inferencia filogentica molecular Mtodos de distancia

Datos de distancia:
- siempre involucran la comparacin entre pares de OTUs
- la mayor parte de los mtodos moleculares generan datos de caracteres;
stos han de ser transformados en distancias para poder ser analizados por
mtodos basados en matrices de distancias (p. ej. NJ, UPGMA, EM)
Porqu transformar caracteres en distancias?
Evolucin de caracteres:
Los mtodos de reconstruccin filogentica requieren que se hagan suposiciones explcitas
sobre:
1.- no. de pasos discretos necesarios para que se d un cambio en estado de caracter
2.- la probabilidad con la que acontece un cambio en estado de caracter
Direccionalidad en la evolucin de los cambios de estado de caracter (EC):
- caracteres ordenados: siguen secuencia especfica de pasos (matrices de pasos)
- caracteres desordenados: los cambios en EC se dan en un solo paso (nt)
Inferencia filogentica molecular

clasificacn de mtodos
Podemos clasificar a los mtodos de reconstruccin filogentica en base al tipo de
datos que emplean (caracteres discretos vs. distancias) y si usan un mtodo algortmico
o un mtodo de bsqueda basado en un criterio de optimizacin para encontrar
la topologa ptima bajo el criterio seleccionado
Tipo de datos
algoritmo de
agrupamiento
UPGMA
y
Neighbor
joining
Bsquedas
bajo criterio
de optimizacin
distancias
Mtodo de reconstruccin
Genmica Evolutiva I, LCG-UNAM, Mxico.

http://www.lcg.unam.mx
Mnimos
cuadrados
y
Evolucin
mnima
caracteres
discretos
1.- Una larga lista de estados de caracter, como una secuencia de DNA aa, carece en s
misma de significado evolutivo; en cambio, decir que 3 secuencias A <-> B <-> C presentan
95% y 50% de identidad entre ellas evoca una imagen intuitiva del grado de parentesco
2.- Los modelos de sust. de secuencias corrigen posibles mltiples sustituciones;
estas correcciones se aplican a las distancias pero no a las secuencias (o datos)
3.- Los mtodos de reconstruccn basados en matrices de dist. son muy rpidos

mtodos basados en matrices de distancias
Los mtodos de distancia se basan en la idea de que si conocisemos las distancias
evolutivas entre OTUs, podramos reconstruir adecuadamente su historia evolutiva.
Este concepto se deriva de la relacin existente entre distancias y rboles:
- la distancia evolutiva representa una escala mtrica topolgica y por lo
tanto define un rbol
En la prctica, empero, las distancias rara vez son mtricos topolgicos exactos.
para que una distancia pueda reflejar perfectamente a la filogenia subyacente debe
de cumplir dos requisitos: ha de ser mtrica y aditiva
7
Distancias mtricas (condiciones):

Mxima
parsimonia
y
Mxima
verosimilitud
Pablo Vinuesa 2008, vinuesa@ccg.unam.mx,

http://www.ccg.unam.mx/~vinuesa/index.html
1. d (a,b) 0
A
(no-negatividad)
2. d (a,b) = d (b,a)
(simetra)
3. d (a,c) d (a,b) + d (b,c)
(inecualidad triangular)
4. d (a,b) = 0 slo si a = b
(distincin)
5
B
La dist. entre cualquier par

de secs. no puede ser mayor
que la existente entre ellas
y una tercera



Distancias ultramtricas (condiciones):
d (a,b) mximo [d (a,c), d (b,c) ]
A
La inecualidad ultramtrica. Las dos distancias
pareadas ms largas [d (a,c) y d (b, c)] son iguales,
y por lo tanto la ultrametricidad define un tringulo
Ser una medida mtrica (o ultramtrica) es una condicin necesaria pero no suficiente
(distancias ms largas definen un

tringulo issceles)
para representar una medida vlida del cambio evolutivo. Para ello tiene que satisfacer
tambin la condicin de los cuatro puntos:
A
B
C
issceles
d (a,b) + d (c,d) mximo [d (a,c) + d (b,d), d (a,d) + d (b,c)]

lo que equivale a requerir que de las tres sumas [ d (a,b) + d (c,d), d (a,c) + d (b,d) y
d (a,d) + d (b,c)], las dos ms grandes son iguales
C
Las distancias ultramtricas tienen la virtud de implicar igual tasa de evolucin entre
Esta condicin matemtica equivale a decir que las distancias son aditivas.
OTUs a lo largo de toda la filogenia

De ah que por ejemplo el test de tasas relativas para el reloj molecular se basa en
cuantificar si las distancias entre tres secuencias departen o no significativamente
de la condicin de ultrametricidad
Inferencia filogentica molecular mtodos de distancias

NJ-HKY
Las distancias aditivas o mtricas

definen a una topologa aditiva.
El rbol mtrico representa perfectamente
a las distancias aditivas. Ntese que las
secs. b y c son las ms similares
[d (b,c) = 3], pero no son las ms relacionadas
evolutivamente. El nivel de similitud y relacin evolutiva
coincidirn slamente cuando las distancias son
ultramtricas. Datos reales nunca son perfectamente aditivos
Cuando las distancias

no son mtricas y aditivas,
puede ser conveniente
representar las seales
no aditivas como ciclos
adicionales en las grficas
o rboles, lo que permite
acomodar mejor a estas seales,
las cuales son generalmente
homoplsicas.
Estos ciclos pueden tambin
acomodar seales no aditivas
originadas por eventos de
recombinacin.
Distancias topolgicas
Splits tree graph

of HKY distances

Las distancias ultramtricas definen

una topologa ultramtrica.
Biolgicamente dist. ultram. se ajustan
a un rbol enraizado bajo el reloj molecular
La sec. d es equidistante a todas las
dems y la sec. c es equidist. de a y b.
Si tomamos 3 secs. cualesquiera, las
dist. entre ellas definen un tringulo issceles, por lo que
las distancias mostradas son ultramtricas. Para cualquier par
de secs, el valor de dist. en la matriz se corresponde con la suma
de long. de ramas en el caminio ms corto que las une en el rbol



Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)
En un mundo perfecto, las distancias evolutivas estimadas seran perfectamente aditivas,
El mtodo de los mnimos cuadrados permite encontrar la
en cuyo caso podramos encontrar una combinacin de long. de ramas (a, b, c, d, e) tales que
combinacin de valores de (a, b, c, d y e) que maximiza el
el camino a travs del rbol conectando el OTU i con el j (pij = distancia topolgica o
ajuste entre pij y dij. Encontrar las long. de ramas mejor
patrstica) reflejara exactamente la distancia evolutiva correspondiente (dij ).
ajustadas implica minimizar la suma ponderada de cuadra-
Pero el mundo (homoplasias) y los mtodos no son perfectos ...
dos.
w = 1/ d Kij representa un factor de ponderacin

inversamente proporcional a la distancia estimada,
- De ah que existan 2 estrategias que buscan minimizar el desfase entre la distancia
donde k = 0 k =2. As las divergencias profundas tienen
evolutiva y la distancia topolgica y por lo tanto representan criterios de optimizacin:
menor peso que las ms recientes, las cuales se pueden

estimar mejor.
1. mtodos de bondad de ajuste: buscan el rbol mtrico que mejor acomoda

las distancias observadas usando el mtodo de mnimos cuadrados
diag. super.: dist. patrsticas
2. mtods de evolucin mnima: buscan el rbol cuya suma de longitudes de

rama es la mnima
diag. infer.: dist. evolutivas


(2n-3) = 7 ramas
independientes
SS = 0.000033144
(n-1) = 4 ramas
independientes
SS = 0.26577
Distancias K2P (sobre la diagonal) y distancias topolgicas obtenidas por MC para mtDNAs.
En negritas dt > de; en cursiva dt < de (dt =dist. topol.; de = dist. observada o evolutiva)
Las dt > de pueden explicarse por homoplarbol aditivo
sias en algunas ramas

Las dt < de no pueden explicarse fcilmente y
son contra-intuitivas, ya que implicaran que aconteci menos cambio evolutivo que el observado!
Ello ha llevado a algunos investigadores a criticar fuertemente el mtodo de los MC para estimar la long. de las ramas

topologas aditivas y ultramtricas para las mismas secuencias. La topologa ultramtrica

tiene menor nmero de ramas con longitudes nicas dadas las restricciones impuestas
A mayor desvo del reloj molecular (igualdad de tasas evolutivas entre linajes) mayor desvo de la ultrametricidad de los datos y mayor la diferencia en el ajuste entre los rboles
aditivos y ultramtricos a los datos
Los aditivos tienen entonces mayor ajuste dado que no tienen restricciones de ultrametric.


Criterio de optimizacin de Evolucin Mnima
- dada una topologa aditiva para n secuencias, existen (2n - 3) ramas, cada una con una
longitud li. La suma de estas long. de ramas es la longitud L del rbol:
raz
- dados dos rboles, aquel que minimiza la suma de longitudes de ramas L

(estimadas por MC) es el mejor segn el criterio de EM
El criterio de optimizacin de EM es por tanto similar al de MP, si bien el primero calcula
L directamente de una matriz de distancias pareada, mientras que el segundo calcula L
en base al ajuste entre caracteres discretos y topologas
rbol ultramtrico
rbol aditivo

Se pueden encontrar rboles de EM mediante tcnicas de programacin lineal (encontrar una
solucin ptima dadas unas constricciones). Aplicado a encontrar la longitud de un rbol las
constricciones son: 1) ramas de long. 0; 2) que para cada par de secuencias las distancias
topolgicas nunca sean < que las observadas (pij dij para todos los pares ij )
Al igual que para los caracteres discretos, encontrar el rbol de distancias ptimo es computacionalmente difcil. Para nmeros chicos de secs. se pueden usar mtodos exactos; para
nmeros grandes, se emplean mtodos heursticos (aproximados):
1.- mtodo de los vecinos
2.- mtodo de unin de vecinos (NJ)
3.- UPGMA

La optimizacin de long. de ramas mediante PL es computacionalmente costosa para
muchos OTUs (>20).
Se usa ms frecuentemente el mtodo de mnimos cuadrados para estimar las
longitudes de rama. Las long. de rama obtenidas por MC se suman para obtener la L
El mtodo de los mnimos cuadrados permite encontrar la
combinacin de valores de (a, b, c, d y e) que maximiza el
distancias observadas (p) sobre diagonal; distancias topolgica

bajo la diagonal obtenidas mediante programacin lineal
ajuste entre pij y dij. Encontrar las long. de ramas mejor
ajustadas implica minimizar la suma ponderada de cuadrados.
w = 1/ d Kij representa un factor de ponderacin

rbol de EM con las long. de ramas calculadas de las
dist. observadas p usando progr. lineal. La long. total
del rbol es 331.5

inversamente proporcional a la distancia estimada,

donde k = 0 k =2. As las divergencias profundas tienen
menor peso que las ms recientes, las cuales se pueden
estimar mejor.


Unweighted pair group method with arithmetic means (UPGMA)
- este es uno de los pocos mtodos que construye rboles ultramtricos (todas las hojas
equidistantes de la raz), es decir asume un reloj molecular perfecto a lo largo de toda
la topologa
- se puede concebir como un mtodo heurstico para encontrar la topologa ultramtrica
de mnimos cuadrados para una matriz de distancias pareadas

OTU A
B dAB
C dAC
D dAD
dBC
dBD
dCD
OTU (AB)
C
d(AB)C
D
d(AB)D
dCD
d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2
l(AB)C = d(AB)C/2

el punto de ramificacin (PR) entre dos OTUs sencillos, i y j,
se posiciona en el punto medio entre ellos
el PR entre un OTU sencillo y uno compuesto (jm ), se
posiciona en el punto medio de la media aritmtica de
la distancia entre i y los constituyentes del OTU
compuesto (jm )
el PR entre dos OTUs compuestos se posiciona a la mitad
de la media aritmtica de las distancias entre
los constituyentes de los OTUs sencillos de
cada OTU compuesto. As el PR entre (ij ) y (mn )
es:
UPGMA, por construir un rbol ultramtrico, resulta en una topologa enraizada.

Adems se obtienen las longitudes de rama simultneamente con la topologa

Ejercicios del examen de la seccin de inferencia filogentica

BGE-IV 2005
B) Calcula una matriz de distancias pareadas en base al nmero observado de
diferencias entre OTUs, y en base a ella dibuja un rbol de UPGMA, indicando
las longitudes de cada rama
1. Alineamiento:
No. sitios : 15; OTUs (taxa) = 4
Rhizobium
Agrobacterium
Sinorhizobium
Bradyrhizobium
GGA GGG AGG AGG CCT

GGC GGG AGG AGG CCT
GGG GGA AGG TGT CCG
GGT CGT AGC TGT GTG
2. Matriz de distancias: d : distancia (no. de diferencias observadas)

[
[Rhizobium, A]
[Agrobacterium, B]
[Sinorhizobium, C]
[Bradyrhizobium, D]
1.0
5.0
9.0
5.0
9.0
6.0
D]

Inferencia de un rbol UPGMA usando el no. de dif. obs.

como medida de la distancia gentica entre OTUs
Matriz de
distancias:
1.
2.
[
[Rhizobium, A]
[Agrobacterium, B]
[Sinorhizobium, C]
[Bradyrhizobium, D]
OTU A
B dAB
C dAC
D dAD
OTU
C
D
(AB)
1.0
5.0
9.0
5.0
9.0
D]
Matriz de
distancias:
6.0
dBC
dBD
d(AB)C
d(AB)D

0.50
0.50
Rhizobium
Agrobacterium
4.
dCD
C
d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2
dCD
d(AB)C = (5 + 5 )/2, y d(AB)D = (9 + 9)/2
OTU (AB)
C
5
D
9
0.50
0.50
2.00
2.50
d(AB)C/2
[
[Rhizobium, A]
[Agrobacterium, B]
[Sinorhizobium, C]
[Bradyrhizobium, D]
1.0
5.0
9.0
5.0
9.0
6.0
(ABC)
d(ABC)D
1.0
5.0
9.0
5.0
9.0
6.0
D]
D]
d(ABC)D = (dAD + dBD + dCD) / 3
1.50
d(AB)C = (9 + 9 + 6 ) / 3 = 8
2.50
4.00
Rhizobium
Agrobacterium
Sinorhizobium

Matriz de
distancias:
OTU
D
2.00
5.
3.
[
[Rhizobium, A]
[Agrobacterium, B]
[Sinorhizobium, C]
[Bradyrhizobium, D]
0.50
0.50
Rhizobium
Agrobacterium
Sinorhizobium
Bradyrhizobium
d(ABC)D / 2

Mtodo neighbor-joining (NJ)
Se trata de un mtodo puramente algortmico, representando una buena aproximacin
heurstica para encontrar el rbol de evolucin mnima ms corto. Secuencialmente encuentra vecinos que minimizan la longitud total del rbol
Es muy rpido y proporciona un solo rbol
rbol estrella para
N OTUS
2.00
1.50
2.50
4.00
0.50
0.50
Rhizobium
Agrobacterium
Sinorhizobium
Bradyrhizobium
d(ABC)D / 2
Notan alguna inconsistencia entre las distancias topolgicas y observadas?

- La distancia entre C y D no es aditiva y no queda adecuadamente reflejada
en la correspondiente longitud de rama

N(N-1)/2 modos
de buscar pares
de OTUs en X
- expresin para la suma de todas las long. de ramas

- se busca el par que minimiza S y se considera como
un OTU compuesto
- se calcula una nueva matriz de dist. como en UPGMA
- se reitera hasta encontrar todas las N-3 ramas internas

Objeciones a los mtodos de distancia
- hay que diferenciar entre los algoritmos para encontrar los rboles y los mtodos para
estimar las dist. evolutivas
- si se escoge un modelo inadecuado de sust. el mtodo de distancia puede fallar en recuperar la topologa correcta
1. Prdida de informacin
cuando matrices de datos cualitativos han de ser transformada en dist.
se pierde mucha informacin. P. ej. ya no se puede trazar la evolucin de cada caracter
o categoras de caracteres sobre la topologa; no se pueden estimar los valores para los
parmetros de un modelo de sustitucin (ti, tv, etc.)
2.
Longitudes de rama sin sentido biolgico

- Podemos encontrar rboles de EM con L = nmero no entero (p. ej. 331.5)
- este rbol es adems mucho ms corto que el calculado por MP (L = 353). El rbol obtenido mediante PL es internamente consistente pero biolgicamente imposible
Homoplasias y error de muestreo

Clculo de lmites de confianza para topologas
Exactitud y precisin en filogentica
En filogentica la exactitud de una topologa indica su grado de proximidad a la
realidad (filogenia verdadera a estimar), mientras que la precisin tiene que ver con
la cantidad de rboles alternativos que el mtodo es capaz de desechar.
Si tenemos dos termmetros (A y B) con los que medimos la temperatura de agua
hirviendo (a 1 atm. de presin) y obtenemos las medidas A = 101C y B = 97.35 C
diramos que A es ms exacto pero menos preciso.
Ojo, mtodos filogenticos basados en criterios de optimizacin que producen puntajes
(scores) como nmeros reales como el de mxima verosimilitud (-lnL = 3598.2483) dan
una falsa impresin de mayor precisin que aquellos CO como el de mxima parsimonia
que trabajan con nmeros enteros (no. de pasos mutacionales) (L = 257 pasos). En el
segundo caso simplemente existe un nmero finito de pasos mutacionales que definen
a las longitudes de un rbol. De ah que independientemente del mtodo de reconstruccin utilizado para recuperar una filogenia, la precisin de sta se mide en base al
nmero de topologas alternas que se descartan. Idealmente todas salvo una.
Homoplasias y error de muestreo

Pero si se muestreasen slo los primeros 31 sitios del aln (5 sitios Pi) obtendramos un
La calidad de la seal filogentica de los datos es una de las fuentes de posible error
en la estima filogentica, pudiendo afectar tanto a la exactitud como a la precisin de la
estima.
Si un set de datos contiene homoplasias implica que distintos sitios del alineamiento van
rbol de MP con la siguiente topologa: (((human,gorilla),chimp),orang,gibbon), que no se

corresponde con el rbol de MP para el set completo de datos. El primer sito apoya
(human, gorilla), el 2 (human,chimp,gorilla) y la 3. (chimp,gorilla), que contradice a la
relacin apoyada por la 1a. pos.
a apoyar diferentes topologas. Por lo tanto, qu rbol (o rboles) van a ser apoyados por
un set de datos depender del subconjunto de caracteres muestreados.
El muestreo de las aprox. 16.000 pb del genoma mitocondrial de estos primates y

sets de datos ms extensos (con ms OTUs) soportan el rbol:
(((human,chimp),gorilla),orang,gibbon).
90 sitios parsimonia informativos (de 986 sitios de coi ) que resultan en el rbol:
((human,(chimp,gorilla)),orang,gibbon).

Por tanto, para minimizar los errores de muestreo (debidos a homoplasias) hay que tratar de
obtener secuencias lo ms largas posibles para el mayor nmero posible de genes
Estima del error de muestreo mediante el mtodo de bootstrap

Una va de estimar el error de muestreo es tomar mltiples muestras de la poblacin
y comparar las estimas obtenidas de ellas. La dispersin entre estas muestras nos da
una idea del error de muestreo

Estima del error de muestreo en un alineamiento mltiple
mediante el mtodo de bootstrap
Alineamiento original
1. Pseudorplicas de bootstrap (muestreo aleatorio

de caracteres con reemplazo hasta obtener una
matriz de igual no. de caracteres que la original
El mtodo de bootstrap se basa en remuestrear una muestra nica
2. Obtener el rbol consenso que resume

la informacin de las topologas recuperadas
de cada pseudorplica de bootstrap.
3. Mapear las proporciones de bootstrap
sobre la topologa original
Estima del error de muestreo mediante el mtodo de bootstrap

Filogenia NJ-K2P+G estimada a partir
Homo sapiens
de secuencias de NADH-DH mitocondrial
Pan
de 12 primates.
Gorilla
Pongo
Hylobates
M sylvanus
Estn todas las biparticiones
Macaca fuscata
M m ulatta
O planteado de otra manera: qu tan
Saim iri sciureus

Tarsius syrichta
resuelta est esta filogenia?
Lem ur catta
pendencia de caracteres y que estn distribudos idnticamente. Es decir, asume que cada
sitio es independiente de todas las dems y que la tasa de variacin est distribuda homogneamente a lo largo del alineamiento.
Un anlisis de bootstrap con
Homo sapiens
83
10 0
500 pseudorplicas indica que
Pan
96
el rbol est muy bien resuelto:
Gorilla
100
Pongo
Hylobates
97
M sylvanus
todas las biparticiones estn
independencia analizando 10 genomas completos de mitocondrias comparando los rboles obtenidos para datos
contrastantes de muestreo: 1) bloques contiguos de
secuencia vs. 2) caracteres muestreados al azar a lo
argo de los genomas.
(Cummings et al. 1995. MBE, 12:814-22)
M fascicularis
1 00
ltamente justificadas por los
Cummings et al. (1995) pusieron a prueba el supuesto de
obtenidos de estos genomas siguiendo dos estrategias
0.05
Macaca fuscata
99
10 0
datos segn indican las proporen porcentaje)
Un aspecto importante a tener en cuenta es que el mtodo de bootstrap asume la inde-
M fascicularis
igualmente soportadas?
ciones de bootstrap (expresadas
el mtodo de bootstrap: consideraciones crticas
M mulatta
Saimiri sciureus
Tarsius syrichta
Lemur catta
100
0.05

Si el supuesto de independencia es cierto, ambos sets de resultados deberan representar

buenas aproximaciones del rbol genmico (Fig.1) . Pero de hecho el muestreo de caracteres
al azar represent una mejor aprox. al rbol genmico que muestreando caracteres por
bloques. No est claro qu robusto es el bootstrap a violaciones al supuesto de independ.

Métodos de Distancias y Prueba de Bootstrap

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Métodos de Distancias y Prueba de Bootstrap

Enviado por

Direitos autorais:

Formatos disponíveis

Tema 5: Mtodos de distancia y prueba de bootstrap

Inferencia filogentica molecular Mtodos de distancia

(est. de car. discretos; binarios o multiestado; gralte. revesibles)

Inferencia filogentica molecular Mtodos de distancia

Inferencia filogentica molecular

Genmica Evolutiva I, LCG-UNAM, Mxico.

Inferencia filogentica molecular

Distancias mtricas (condiciones):

Pablo Vinuesa 2008, vinuesa@ccg.unam.mx,

3. d (a,c) d (a,b) + d (b,c)

La dist. entre cualquier par

Tema 5: Mtodos de distancia y prueba de bootstrap

Genmica Evolutiva I, LCG-UNAM, Mxico.

Inferencia filogentica molecular

Inferencia filogentica molecular

Distancias ultramtricas (condiciones):

d (a,b) mximo [d (a,c), d (b,c) ]

(distancias ms largas definen un

d (a,b) + d (c,d) mximo [d (a,c) + d (b,d), d (a,d) + d (b,c)]

d (a,d) + d (b,c)], las dos ms grandes son iguales

OTUs a lo largo de toda la filogenia

Inferencia filogentica molecular mtodos de distancias

Las distancias aditivas o mtricas

Cuando las distancias

Splits tree graph

Pablo Vinuesa 2008, vinuesa@ccg.unam.mx,

Las distancias ultramtricas definen

Tema 5: Mtodos de distancia y prueba de bootstrap

Genmica Evolutiva I, LCG-UNAM, Mxico.

Inferencia filogentica molecular

Inferencia filogentica molecular

En un mundo perfecto, las distancias evolutivas estimadas seran perfectamente aditivas,

El mtodo de los mnimos cuadrados permite encontrar la

combinacin de valores de (a, b, c, d y e) que maximiza el

ajuste entre pij y dij. Encontrar las long. de ramas mejor

patrstica) reflejara exactamente la distancia evolutiva correspondiente (dij ).

ajustadas implica minimizar la suma ponderada de cuadra-

Pero el mundo (homoplasias) y los mtodos no son perfectos ...

w = 1/ d Kij representa un factor de ponderacin

- De ah que existan 2 estrategias que buscan minimizar el desfase entre la distancia

donde k = 0 k =2. As las divergencias profundas tienen

evolutiva y la distancia topolgica y por lo tanto representan criterios de optimizacin:

menor peso que las ms recientes, las cuales se pueden

1. mtodos de bondad de ajuste: buscan el rbol mtrico que mejor acomoda

diag. super.: dist. patrsticas

2. mtods de evolucin mnima: buscan el rbol cuya suma de longitudes de

diag. infer.: dist. evolutivas

Inferencia filogentica molecular

Inferencia filogentica molecular

Las dt > de pueden explicarse por homoplarbol aditivo

sias en algunas ramas

Pablo Vinuesa 2008, vinuesa@ccg.unam.mx,

topologas aditivas y ultramtricas para las mismas secuencias. La topologa ultramtrica

Tema 5: Mtodos de distancia y prueba de bootstrap

Inferencia filogentica molecular

Genmica Evolutiva I, LCG-UNAM, Mxico.

- dados dos rboles, aquel que minimiza la suma de longitudes de ramas L

Inferencia filogentica molecular

Inferencia filogentica molecular

distancias observadas (p) sobre diagonal; distancias topolgica

ajuste entre pij y dij. Encontrar las long. de ramas mejor

ajustadas implica minimizar la suma ponderada de cuadrados.

w = 1/ d Kij representa un factor de ponderacin

Pablo Vinuesa 2008, vinuesa@ccg.unam.mx,