Você está na página 1de 30

Arvores Filogenticas e Arvores logenticas representam a abordagem mais comumente e usada para reconstruir a relao entre objetos biolgicos.

ca o

Arvores Filogenticas e
Zanoni Dias
Instituto de Computao Unicamp ca

Cada folha da rvore denota um dos objetos biolgicos, enquanto os a o ns internos representam ancestrais hipotticos. o e A distncia entre os objetos na rvore pode servir com uma medida a a do grau de relao entre os objetos. ca Em relao a rvores logenticas, h dois interesses principais: ca a e a

21 de junho de 2010

Obter a topologia da rvore, ou seja, a forma como os ns internos se a o conectam uns com os outros e com as folhas. Obter as distncias entre todos os ns da rvore. a o a Nas rvore com raiz (ou enraizada), a raiz representa o ancestral a comum a todos os ns da rvore. o a Nem sempre temos informaoes sucientes para determinar o ancestral c comum a todos os ns. Neste caso, constroi-se uma rvore sem raiz. o a
Arvores Filogenticas e 21 de junho de 2010 2 / 119

Em relao a raiz de uma rvore logentica, temos dois casos: ca a e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

1 / 119

Zanoni Dias (IC Unicamp)

Arvore Filogentica com Raiz e

Arvore Filogentica sem Raiz e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

3 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

4 / 119

Arvores Aditivas Dados para Construo de Arvores Filogenticas ca e Os tipos de informaoes utilizadas para reconstruo logentica so, c ca e a normalmente, divididos em trs categorias: e

Denio ca
Seja A um conjunto de objetos e : A A R+ uma funo. Ento ca a e uma mtrica para A se satisfaz as seguintes propriedades: e Para todo par a, b A, (a, b) = 0 se e somente se a = b. Para todo par a, b A, (a, b) = (b, a) (simetria). Para toda trinca a, b, c A, (a, b) (a, c) + (c, b) (desigualdade triangular).

Informao comparativa numrica, chamada Matriz de Distncia entre ca e a os pares de objetos. Caracter sticas discretas, tais como cor da pele, nmero de dedos, u presena de asas, presena de um s de restrio, presena de um c c tio ca c SNP, etc. Cada caracter stica possui um nmero nito de estados u (valores distintos que a caracter stica pode assumir). Neste caso a informao organizada numa matriz chamada Matriz de Estados das ca e Caracter sticas. Caracter sticas cont nuas, tais como altura na fase adulta, peso no nascimento, tamanho do genoma, etc. Cada caracter stica pode possuir um nmero innito de estados. Neste caso a informao tambm pode u ca e ser organizada numa Matriz de Estados das Caracter sticas.

Denio ca
Seja A um conjunto de objetos e : A A R+ uma medida de distncia mtrica para A. Seja T = (V , E , d) uma rvore ponderada tal a e a que A V . Seja dist(x, y ) a distncia entre dois vrtice quaisquer x e y a e em T , calculada como a soma dos pesos das arestas do caminho entre x e y . A rvore T chamada aditiva para A e se e somente se, para todo a e a, b A, dist(a, b) = (a, b).
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 6 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

5 / 119

Como Construir uma Arvore Aditiva Como Vericar se uma Matriz de Distncia Aditiva a e

Teorema
Seja A um conjunto de objetos e : A A R+ uma medida de distncia mtrica para A. A mtrica dita aditiva para A, ou seja a e e e admite uma rvore aditiva, se e somente se para todo conjunto de 4 a elementos i, j, k, l A, temos que: ou (i, j) + (k, l) = (i, k) + (j, l) (i, l) + (j, k), ou (i, l) + (k, j) = (i, k) + (j, l) (i, j) + (k, l), ou (i, j) + (k, l) = (i, l) + (k, j) (i, k) + (j, l). Teorema provado, independentemente, por Peter Buneman (1971) e Annete Dobson (1974).

Lema
Seja A = {x, y , z} um conjunto de objetos e : A A R+ uma distncia mtrica aditiva para A. Logo podemos construir uma rvore a e a aditiva T = (V , E , d), com V = {x, y , z, c}, E = {{x, c}, {y , c}, {z, c}}, com pesos para as arestas dados pelas seguintes frmulas: o d(x, c) = d(y , c) = d(z, c) = (x, y ) + (x, z) (y , z) 2 (x, y ) + (y , z) (x, z) 2 (x, z) + (y , z) (x, y ) 2
Arvores Filogenticas e 21 de junho de 2010 8 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

7 / 119

Zanoni Dias (IC Unicamp)

Arvore Aditiva Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

9 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

10 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

11 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

12 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

13 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

14 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

15 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

16 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

17 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

18 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

19 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

20 / 119

Arvore Aditiva

Arvore Aditiva

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

21 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

22 / 119

Arvore Aditiva

Algoritmo para Construo de Arvores Aditivas ca A partir de uma rvore formada por 3 vrtices (quaisquer), adicione a e novos vrtices, um a um, seguindo os seguintes passos: e
1. Escolha dois vrtices quaisquer da rvore previamente constru e a da (chame estes vrtices de x e y ). e 2. Calcule onde o novo vrtice z dever ser inclu em relao ao e a do, ca caminho entre x e y . 3. Se a insero do novo vrtice gerar um novo vrtice interno c, entre os ca e e vrtices c1 e c2 , remova a aresta (c1 , c2 ), insira os vrtices c e z e as e e arestas (c1 , c), (c, c2 ) e (c, z). 4. Caso contrrio, se existir um vrtice y da rvore previamente a e a constru (e ainda no descartado na insero do vrtice corrente), da a ca e chame-o de y e volte ao passo 2. 5. Caso contrrio, insira o vrtice z e aresta (c, z), onde c o n interno a e e o do caminho entre x e y onde z deve ser inclu do.
n 3 Complexidade (pior caso): k=4 (k 2)(k) = (n ). Algoritmo proposto por Waterman, Smith, Singh e Beyer, em 1977. Annete Dobson, em 1974, provou que, dada uma matriz aditiva, existe uma unica rvore aditiva (a menos de contraoes de caminhos). a c

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

23 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

24 / 119

Como Vericar se uma Matriz de Distncia Aditiva a e Mtodo Ingnuo: e e

Arvores Aditivas Compactas

Faa o teste para todo conjunto de 4 elementos, conforme teorema c previamente visto. n Complexidade: (1) = (n4 ). 4 Dada uma matriz de distncia qualquer, construa uma rvore, de a a acordo com o algoritmo para matrizes aditivas previamente estudado.

Denio ca
Uma rvore aditiva T = (V , E , d) chamada compacta se A = V . a e

Abordagem Alternativa:

Teorema
Seja G (V , E ) o grafo completo onde os vrtices representam os objetos de e A e as arestas representam as distncias mtricas entre todos os pares de a e objetos. O grafo G (V , E ) chamado Grafo de Distncias. Se existe uma e a rvore compacta aditiva T = (V , E , d), com E E , para A com respeito a a , ento T a unica Arvore Geradora M a e nima do grafo G (V , E ).

Complexidade: (n3 ).

Para cada vrtice da rvore, calcule a distncia para os demais vrtices e a a e da rvore, usando algoritmo de caminhos m a nimos para grafo ac clicos.

Complexidade: n (n) = (n2 ).

Para cada par de vrtice da rvore, compare as distncia computadas e a a atravs da rvore com as distncias da matriz original. e a a

Complexidade: (n2 ).

Total: (n3 ).
Arvores Filogenticas e 21 de junho de 2010 25 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 26 / 119

Zanoni Dias (IC Unicamp)

Distncia Ultramtrica a e

Como Construir Arvores Aditivas Compactas Como construir uma Arvore Aditiva Compacta (caso ela exista):

Denio ca
Seja A um conjunto de objetos e : A A R+ uma mtrica para A. e Ento uma ultramtrica para A se satisfaz a seguinte condio: a e e ca Para toda trinca a, b, c A, ou (a, b) (a, c) = (c, b) ou (a, c) (a, b) = (b, c) ou (b, c) (b, a) = (a, c).

Execute o algoritmo de Prim para Arvore Geradora M nima: (n2 ). Usando algoritmo de caminhos m nimos para grafos ac clicos, calcule a distncia entre todos os pares de vrtices da Arvore Geradora M a e nima: n (n) = (n2 ). Para cada par de vrtice i, j V , teste se dist(i, j) = (i, j): (n2 ). e Complexidade: (n2 ).

Lema
Uma matriz de distncia M ultramtrica se e somente se no grafo a e e completo G correspondente, a aresta de maior peso, em qualquer ciclo, no unica. a e

Observao ca
Toda distncia ultramtrica uma distncia aditiva. a e e a
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 27 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 28 / 119

Arvores Ultramtricas e

Arvores Ultramtricas e

Denio ca
Seja A = {a1 , a2 , . . . , an } um conjunto de objetos. Uma rvore ponderada a T = (V , E , d) com raiz r e funo de peso associada `s arestas ca a d : E R+ uma rvore ultramtrica para A se satisfaz as seguintes e a e condies: co T uma rvore aditiva para o conjunto A e a distncia d. e a a T uma rvore binria, ou seja, cada vrtice interno de T possui e a a e exatamente dois lhos. T possui exatamente n folhas, rotuladas com {a1 , a2 , . . . , an }. A soma dos pesos das arestas de qualquer caminho da raiz r a qualquer folha de T sempre o mesmo. e

Teorema
Seja A = {a1 , a2 , . . . , an } um conjunto de objetos e : A A R+ uma funo de comparao para os objetos de A, logo existe uma rvore ca ca a ultramtrica para A se e somente se for ultramtrica. e e Dado um conjunto de objetos A e uma funo ultramtrica para A, ca e o algoritmo UPGMA (Unweighted Pair Group Method with Arithmetic Mean), proposto por Robert Sokal e Charles Michener em 1958, calcula a rvore ultramtrica para A em O(n3 ). a e A cada iterao, o algoritmo UPGMA agrupa os dois objetos mais ca prximos entre si, de acordo com a funo de distncia . o ca a

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

29 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

30 / 119

UPGMA Algoritmo 1: UPGMA


Input: A, n, X {{ai }, {a2 }, . . . , {an }} for all i, j [1..n] do dist({ai }, {aj }) = (ai , aj ) for all i [1..n] do height({ai }) 0 V X E while |X | 2 do min for all xi , xj X do if xi = xj and dist(xi , xj ) < min then min dist(xi , xj ) C1 xi ; C2 xj ; D C1 C2 end X (X {C1 , C2 }) {D} for all C X do dist(D, C ) dist(C , D) (dist(C1 , C ) + dist(C2 , C ))/2 V V {D} E E {(D, C1 ), (D, C2 )} height(D) dist(C1 , C2 )/2 d(D, C1 ) height(D) height(C1 ) d(D, C2 ) height(D) height(C2 ) end return T = (V , E , d)
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 31 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 32 / 119

Arvore Ultramtrica e

Arvore Ultramtrica e

Arvore Ultramtrica e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

33 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

34 / 119

Arvore Ultramtrica e

Arvore Ultramtrica e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

35 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

36 / 119

Arvore Ultramtrica e

Neighbor-Joining Algoritmo para construo de rvores logenticas sem raiz. ca a e Se a matriz for aditiva, o algoritmo constri uma rvore aditiva. o a Para matrizes no aditivas, geralmente produz boas rvores (em a a termos topolgicos). o Para cada objeto, calcula uma medida u(x) de separao entre o ca objeto x e todos os demais obetos do conjunto. A cada iterao, o algoritmo Neighbor-Joining tenta agrupar os ca dois objetos mais prximos entre si, de acordo com a funo de o ca distncia , e ao mesmo tempo mais separados dos objetos a restantes, de acordo com a funo de separao u, ou seja: ca ca

Desejamos agrupar o par (i, j) de objetos, tal que o valor S(i, j) = (i, j) u(i) u(j) seja o menor poss vel.

O mtodo Neighbor-Joining foi proposto em 1987 por Naruya e Saitou e Masatoshi Nei. Em 1988, James Studier e Karl Keppler mostraram que poss e vel implementar o mtodo Neighbor-Joining com complexidade O(n3 ). e
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 37 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 38 / 119

Neighbor-Joining Algoritmo 2: Neighbor-Joining


Input: A, n, X {{a1 }, {a2 }, . . . , {an }} for all i, j [1..n] do dist({ai }, {aj }) = (ai , aj ) V X; E while |X | > 2 do 1 for all x X do u(x) = |X |2 x X d(x, x ) min for all xi , xj X do if xi = xj and dist(xi , xj ) u(xi ) u(xj ) < min then min dist(xi , xj ) u(xi ) u(xj ) C1 xi ; C2 xj ; D C1 C2 end X (X {C1 , C2 }) {D} for all C X do dist(D, C ) dist(C , D) (dist(C1 , C ) + dist(C2 , C ) dist(C1 , C2 ))/2 V V {D}; E E {(D, C1 ), (D, C2 )} d(D, C1 ) (dist(C1 , C2 ) + u(C1 ) u(C2 ))/2 d(D, C2 ) (dist(C1 , C2 ) + u(C2 ) u(C1 ))/2 end (C1 , C2 ) X E E {(C1 , C2 )} d(C1 , C2 ) = dist(C1 , C2 ) return T = (V , E , d)
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 39 / 119 Zanoni Dias (IC Unicamp)

Neighbor-Joining

Arvores Filogenticas e

21 de junho de 2010

40 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

41 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

42 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

43 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

44 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

45 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

46 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

47 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

48 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

49 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

50 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

51 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

52 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

53 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

54 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

55 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

56 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

57 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

58 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

59 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

60 / 119

Neighbor-Joining

Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

61 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

62 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

63 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

64 / 119

Neighbor-Joining Neighbor-Joining

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

65 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

66 / 119

Sandu che Ultramtrico e Arvores Filogenticas para Matrizes no Aditivas e a Em muitos casos prticos a matriz de distncia no aditiva. a a a e Nestes casos, estamos interessados em encontrar a melhor rvore a logentica em relao a matriz de distncia. e ca a Existem muitas formas poss veis de denir a melhor rvore a logentica em relao a uma matriz de distncia, por exemplo, a e ca a rvore que satizfaa a seguinte expresso: a c a min
i,jA

Denio ca
Seja M l e M h duas matrizes de distncias entre os objetos A, contendo, a respectivamente, limites inferiores e superiores para as distncias entre os a pares de objetos de A. Ou seja, para todo par i, j A, temos que: M l [i, j] (i, j) M h [i, j]

Denio ca
Seja T uma rvore geradora m a nima para o grafo G h constru a partir do h . O corte mais pesado (cut-weight) de uma aresta e de T da matriz M e dado por: CW (e) = max{M l [a, b]|e = (a, b)max } onde (a, b)max a aresta mais pesada do caminho entre os vrtices a e b e e na rvore geradora m a nima T .
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 68 / 119

(dist(i, j) (i, j))2

William Day, em 1987, provou que o problema de encontrar a melhor rvore logentica, sob vrias medidas diferentes, um problema a e a e N P-Completo.
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 67 / 119

Sandu che Ultramtrico e Algoritmo 3: Ultrametric Sandwich


Input: A,T ,CW for all i A do MakeSet(i) CreateNode(i) height[i] 0 end Sort edges of T in nondecreasing order of cut-weights for all edge e = (a, b) T in that order do A FindSet(a); B FindSet(b) if A = B then ua root of the tree that contains a ub root of the tree that contains b CreateNode(U) U.left ua U.right ub height[U] CW [e]/2 d(U, ua ) height(U) height(ua ) d(U, ub ) height(U) height(ub ) Union(A,B) end end return U
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 69 / 119 Zanoni Dias (IC Unicamp)

Sandu che Ultramtrico e

Arvores Filogenticas e

21 de junho de 2010

70 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

71 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

72 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

73 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

74 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

75 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

76 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

77 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

78 / 119

Sandu che Ultramtrico e Sandu che Ultramtrico e CW [(B, D)] = max{M l [a, b]|(a, b)max = (B, D)} = max{M l [a, b]|(a, b) = {(B, D)}} = M l [B, D] = 1 CW [(A, D)] = max{M l [a, b]|(a, b)max = (A, D)} = max{M l [a, b]| (a, b) = {(A, B), (B, C ), (B, E ), (A, D), (C , D), (D, E )}} = max{3, 4, 1, 4, 3, 1} = 4 CW [(A, C )] = max{M l [a, b]|(a, b)max = (A, C )} = max{M l [a, b]|(a, b) = {(A, C )}} = M l [A, C ] = 2 CW [(A, E )] = max{M l [a, b]|(a, b)max = (A, E )} = max{M l [a, b]|(a, b) = {(A, E ), (C , E )}} = max{3, 3} = 3

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

79 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

80 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

81 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

82 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

83 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

84 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

85 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

86 / 119

Sandu che Ultramtrico e

Sandu che Ultramtrico e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

87 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

88 / 119

Sandu che Ultramtrico e Complexidade:

Construo da Arvore Geradora M ca nima T de G h :

Construo de Arvore Filogenticas usando ca e Matriz de Caracter sticas com Estados Discretos Dependendo da quantidade de informao que possu ca mos sobre os estados, podemos classic-los como ordenados ou no ordenados. a a

(n2 ), usando o algoritmo de Prim. Segundo a denio de CW : ca (n) O(n2 ) = O(n3 ). Construindo uma rvore binria auxiliar R, onde os objetos de A so a a a folhas e os ns internos so as arestas de T , de tal forma que para o a cada par de objetos de A, o n interno que o ancestral comum mais o e prximo de a e b contm a aresta (a, b)max : o e (n log n) + (n2 ) = (n2 ).

Clculo de CW [e], para toda aresta e de T : a

Estados No-Ordenados: no sabemos nada sobre como as a a caracter sitcas podem mudar de um estado para outro. Estados Ordenados: quando sabemos exatamente quais so as trocas a de estados poss veis para cada caracter stica. Exemplos:

Algoritmo Ultrametric Sandwich: (n((n) + log n)) = (n log n). Total: (n2 ).

Ordenao linear: 3 1 4 2 ca Parcialmente ordenado: 3 1, 3 5, 5 2, 5 4

Algoritmo proposto por Martin Farach, Sampath Kannan e Tandy Warnow, em 1993. Tambm provaram que o problema de obter uma e rvore aditiva (no necessariamente ultramtrica) que satizfaa as a a e c restrioes de sandu c che entre duas matrizes de distncia um a e problema N P-Completo.
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 89 / 119

Caracter sticas onde conhecemos a direo das mudanas de estados ca c so chamadas de orientadas (ou polares). a

Caracter stica No Orientada: 3 1 4 2 a Caracter stica Orientada: 3 1 4 2

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

90 / 119

Caracter sticas com Estados Binrios a Todas as caracter stica s tem dois estados poss o veis:

Filogenia Perfeita para Caracter sticas com Estados Binrios a

Denio ca
Seja A = {a1 , a2 , . . . , an } um conjunto de objetos, C = {c1 , c2 , . . . , cm } um conjunto de caracter sticas binrias e M uma Matriz de Estados de a Caracter sicas para A e C. Uma rvore logentica perfeita para M uma a e e rvore T = (V , E , d) com exatamente n folhas satizfazendo as seguintes a condioes: c As folhas de T correspondem aos objetos de A. As arestas so rotuladas de acordo com a funo d : E C {}, a ca onde representa o rtulo vazio. o Cada uma das caracter sticas de C atribu a exatamente uma e da aresta de T . Para cada objeto ai , o conjunto de rtulos do caminho de ai em T o at a raiz corresponde exatamente as caracter e sticas presentes em ai .
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 92 / 119

0: ausente. 1: presente.

Todas as caracter sticas so independentes entre si. a No h nenhuma caracter a a stica ausente ou presente em todos os objetos. No existem dois ou mais objetos com todas as caracter a sticas no mesmo estado. Todas as caracter sticas evoluem do estado 0 para o estado 1. Aps o alcanar o estado 1, uma caracter c stica nunca retorna ao estado 0. A ra da rvore logentica representar o ancestral com todas as z a e a caracter sticas ausentes (estado 0 para todas as caracter sticas).

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

91 / 119

Filogenia Perfeita para Caracter sticas com Estados Binrios a Filogenia Perfeita para Caracter sticas com Estados Binrios a

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

93 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

94 / 119

Existncia de Filogenia Perfeita e

Denio ca
Para cada caracter stica ci de C seja Ai o conjunto de objetos de A tal que o estado da caracter stica ci seja igual a 1. Exemplos: A3 = {a3 , a4 , a5 }, A5 = {a1 , a2 }.

Existncia de Filogenia Perfeita e E poss obter um algoritmo mais eciente. vel Idia: e

Lema
Uma matriz binria M admite uma logenia perfeita se e somente se para a cada par de caracter sticas ci e cj os conjuntos Ai e Aj ou so disjuntos a ou um deles contm o outro. e Complexidade:

Ordenar as colunas da matriz M de caracter sticas binrias pelo a nmero de 1s (as colunas que possuem a maior quantidade de nmeros u u 1s devem car a esquerda). Construir uma matriz auxiliar L para indicar, para cada valor 1, a posio mais prxima de um valor 1 a sua esquerda na matriz ordenada ca o (na mesma linha). Usar a matriz L para deduzir se existem dois conjuntos Ai e Aj que so a incompat veis entre si (ou seja, no so disjuntos, e nenhum deles a a contm o outro). e

Testar se dois conjuntos so compat a veis: O(n). Nmero de pares de conjutos a serem testados: O(m2 ). u Total: O(nm2 ).
Arvores Filogenticas e 21 de junho de 2010 95 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 96 / 119

Zanoni Dias (IC Unicamp)

Existncia de Filogenia Perfeita e Existncia de Filogenia Perfeita e Algoritmo 4: Existence of a Perfect Phylogenetic Tree
Input: A = {a1 , a2 , . . . , an }, C = {c1 , c2 , . . . , cm },M Sort the columns of M in nonincreasing order of numbers of ones for all i [1..n], j [1..m] do L[i, j] 0 for all i [1..n] do k 1 for all j [1..m] do if M[i, j] = 1 then L[i, j] k kj end end end for all j [1..m] do l 0 for all i [1..n] do if L[i, j] = 0 then if l = 0 then l L[i, j] else if L[i, j] = l then return false end end end return true
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 97 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 98 / 119

Existncia de Filogenia Perfeita e

Existncia de Filogenia Perfeita e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

99 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

100 / 119

Existncia de Filogenia Perfeita e

Existncia de Filogenia Perfeita e

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

101 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

102 / 119

Existncia de Filogenia Perfeita e Existncia de Filogenia Perfeita e Complexidade:

Ordenao da matriz de caracter ca sticas binrias, de acordo com o a nmero de 1s em cada coluna: O(nm) (para contar o nmero de 1s u u em cada coluna) + O(n + m) (para ordenar, usando Counting Sort) = O(nm). Inicializao da matriz L: O(nm). ca Denio da matriz L: O(nm). ca Busca por conjuntos Ai e Aj incompat veis: O(nm). Total: O(nm).

Algoritmo proposto por Dan Guseld, em 1991.

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

103 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

104 / 119

Construo de Filogenia Perfeita ca Algoritmo 5: Perfect Phylogenetic Tree


Input: A = {a1 , a2 , . . . , an }, C = {c1 , c2 , . . . , cm },M Sort the columns of M in nonincreasing order of numbers of ones V {A} E for all j [1..m] do Search for the vertex X V representing the smallest superset of Aj V V {Aj } E E {(X , Aj )} d(X , Aj ) cj end for all i [1..n] do if ai V then / Search for the vertex X V representing the smallest set containing ai V V {ai } E E {(X , {ai })} d(X , {ai }) end end return T = (V , E , d)
Arvores Filogenticas e

Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

21 de junho de 2010

105 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

106 / 119

Construo de Filogenia Perfeita ca Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

107 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

108 / 119

Construo de Filogenia Perfeita ca

Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

109 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

110 / 119

Construo de Filogenia Perfeita ca

Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

111 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

112 / 119

Construo de Filogenia Perfeita ca

Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

113 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

114 / 119

Construo de Filogenia Perfeita ca

Construo de Filogenia Perfeita ca

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

115 / 119

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

116 / 119

Construo de Filogenia Perfeita ca Complexidade:

Construo de Filogenia Perfeita ca

Ordenao da matriz de caracter ca sticas binrias, de acordo com o a nmero de 1s em cada coluna: O(nm) (para contar o nmero de 1s u u em cada coluna) + O(n + m) (para ordenar, usando Counting Sort) = O(nm). Busca do vrtice X que representa o menor conjunto que contm Aj e e m 2 (para 1 j m): j=1 O(nm) = O(nm ). Busca do vrtice X que contm o objeto ai (para 1 i n), usando e e uma vetor auxiliar para armazenar o menor conjunto que contm cada e objeto de A: O(nm) (para criar e atualizar a tabela a cada nova insero de um vrtice na rvore) + n O(1) = O(n) (para acessar a ca e a tabela e criar as folhas faltantes) = O(nm). Total: O(nm2 ).

Algoritmo proposto por Dan Guseld, em 1991. Bodlaender, Fellows e Warnow provaram, em 1992, que o problema de logenia perfeita para estados no ordenados N P-Completo, a e independente do nmero de estados de cada caracter u stica.
Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 117 / 119 Zanoni Dias (IC Unicamp) Arvores Filogenticas e 21 de junho de 2010 118 / 119

PHYLIP PHYLIP: PHYLogeny Inference Package. Pacote gratuito e multiplataforma de anlise logentica desenvolvido a e Joseph Felsenstein em 1989, e mantida pela Universidade de Washington. E capaz de resolver a maioria das anlises logenticas existentes na a e literatura atual. Aceita uma grande variedade de tipos de dados de entrada, como, por exemplo, sequncias moleculares, frequncia de genes, matriz de e e distncia e caracter a sticas discretas.

Zanoni Dias (IC Unicamp)

Arvores Filogenticas e

21 de junho de 2010

119 / 119

Você também pode gostar