Você está na página 1de 11

Anlise de Dados em Bioinformtica Prof.

Von Zuben DCA/FEEC/Unicamp

rvores Filogenticas
1 Introduo todos os fundamentos da biologia moderna esto associados teoria da evoluo de Darwin. de aspectos de anatomia, passando por comportamento e chegando gentica, toda a metodologia de anlise requer uma apreciao das mudanas nos organismos com o tempo. impossvel analisar as relaes entre seqncias de genes sem considerar, direta ou indiretamente, o modo como estas seqncias sofreram modificaes ao longo do tempo.

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

2 Taxonomia a disponibilidade de seqncias de atributos, que descrevem parte das (no confunda com todas as!) caractersticas de organismos, nos remetem s seguintes questes:
Y os atributos correspondentes esto devidamente alinhados (sequence

alignment)?
Y uma vez alinhadas, como estas seqncias esto relacionadas? Y e de um modo geral, uma vez alinhadas, como os organismos dos quais estas

seqncias foram obtidas esto relacionados? o estudo dos relacionamentos entre grupos de organismos chamada taxonomia (ou taxinomia), a qual representa um dos ramos mais antigos da biologia clssica. em outras palavras, a taxonomia envolve a classificao de objetos em grupos, uma atividade que sempre foi exercida pelos homens de todos os tempos e foi estabelecida como um ramo cientfico por Carolus Linnaeus (1707-1778).
Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

a filogenia ou histria evolutiva das espcies est fundamentada em um conceito da teoria da evoluo que afirma que grupos com organismos que apresentam atributos similares descendem de um ancestral comum. a sistemtica filogentica , portanto, um mtodo de classificao taxonmica baseado na histria evolutiva, tendo sido desenvolvida em 1950 por um entomologista alemo chamado Willi Hennig. as relaes evolutivas so representadas na forma de rvores filogenticas, que descrevem os relacionamentos entre as seqncias.
2.1 Metodologias para reconstruo de rvores filogenticas

h duas metodologias distintas para se obter uma rvore filogentica:


Y mtodos fenticos ou no-baseados em modelo evolutivo: so aqueles que

consideram o estado corrente das seqncias de atributos, no importando a

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

histria evolutiva, ou seja, a dinmica dos passos intermedirios. A rvore que melhor explica os relacionamentos entre as seqncias de atributos denominada fenograma.
Y mtodos cladsticos ou baseados em modelo evolutivo: so aqueles que

consideram as possibilidades de resultado de um processo evolutivo, importando a dinmica dos passos intermedirios, e adotam a rvore que melhor explica os relacionamentos entre as seqncias de atributos resultantes, sempre com base em uma hiptese evolutiva. Esta hiptese evolutiva pode estar baseada em algum modelo evolutivo ou em algum critrio de otimalidade. A rvore que melhor explica os relacionamentos entre as seqncias de atributos denominada cladograma. Na rvore adotada, o comprimento dos ramos pode ser informativo (quando a hiptese est baseada em um modelo evolutivo), resultando em um filograma.

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

procarioto 1 procarioto 2 procarioto 3 eucarioto 1 eucarioto 2 eucarioto 3 CLADOGRAMA

procarioto 1 procarioto 2 procarioto 3

FILOGRAMA

eucarioto 1 eucarioto 2 eucarioto 3

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

algoritmos computacionais baseados na metodologia fentica empregam clculo de distncia para reconstruir as rvores a partir de uma seqncia de atributos. So, portanto, enormementente influenciados pelo papel de cada atributo da seqncia. adotar o mesmo papel para cada atributo um procedimento altamente questionvel, mas muito utilizado. Ele se justifica na ausncia de informao para se tomar outras atitudes. os algoritmos baseados na metodologia fentica conduzem a tcnicas computacionais extremamente eficientes e com propriedades estatsticas desejveis. a metodologia fentica supera a metodologia cladstica quando os atributos presentes das seqncias so extremamente objetivos. no entanto, na presena de atributos menos objetivos, como aqueles que envolvem aspectos de morfologia, e na existncia de mltiplos objetivos a serem satisfeitos, a metodologia cladstica seguramente superior.

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

a que corresponde cada atributo da seqncia?


Y tamanho e forma de estruturas visveis; Y presena ou ausncia de alguns fatores; Y tipos de comportamento frente a diversas situaes; Y seqncias de DNA; Y dados de expresso gnica; Y alguma combinao dos atributos acima; Y etc.

estes atributos podem, portanto, assumir valores discretos ou contnuos, havendo medidas de similaridade especficas para cada caso. por exemplo, em uma seqncia de DNA, existem 4 valores possveis para cada atributo, cada um correspondendo a um nucleotdeo.

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

2.2 DNA como unidade bsica da taxonomia

vantagens associadas ao uso de DNA como unidade taxonmica:


Y o estado de cada atributo pode ser definido de forma no-ambgua; Y um nmero elevado de atributos pode ser obtido; Y possvel caracterizar a divergncia entre seqncias no apenas em termos

de distncia, mas tambm levando-se em conta a natureza da divergncia: substituio de nucleotdeos, inseres/delees ou rearranjo de genoma. desvantagens associadas ao uso de DNA como unidade taxonmica:
Y necessidade de aplicao de tcnicas de alinhamento de seqncias; Y dificuldade de atribuir funcionalidade (grau de importncia) a cada atributo.

A B C D

aat tcg ctt cta gga atc tgc cta atc ctg ... ..a ..g ..c .t. ... ... t.. ... ..a ... ..a ..c ..c ... ..t ... ... ... t.a ... ..a ..a ..g ..g ..t ... t.t ..t t..
9

Tpico 6: rvores Filogenticas

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

supondo a capacidade de atribuir funcionalidade s seqncias, por exemplo, delimitando genes, h um entendimento intuitivo de que organismos evolutivamente mais prximos devem apresentar seqncias mais similares, enquanto que indivduos evolutivamente mais distantes devem apresentar seqncias mais dissimilares. dado um conjunto de seqncias de bases, ou melhor ainda, um conjunto de seqncias de genes, possvel reconstruir um relacionamento evolutivo entre estas seqncias, ou genes. possvel estender esta hiptese aos organismos de onde os atributos foram extrados? nem sempre, pois os genes no necessariamente tiveram a mesma histria evolutiva que aquela apresentada pela espcie em que ele est contido. a probabilidade de se estimar uma topologia equivocada para a rvore diretamente proporcional correlao entre as seqncias de atributos.

Tpico 6: rvores Filogenticas

10

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

Tpico 6: rvores Filogenticas

11

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

2.3 A validade cientfica e a correo de uma rvore

a aplicao de pacotes de software distintos a um conjunto de seqncia de atributos muito provvel que produza respostas distintas. alteraes mnimas nos dados podem tambm conduzir a mudanas significativas nos resultados. supondo que os dados so confiveis, que um algoritmo adequado foi escolhido e nenhuma outra hiptese foi violada, possvel determinar a rvore correta e demonstrar sua validade cientfica? a resposta negativa, pois nenhuma resposta ser suficientemente conclusiva. a taxonomia est constantemente em reviso, conforme novos dados so obtidos e ferramentas de anlise mais poderosas so empregadas.

Tpico 6: rvores Filogenticas

12

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

3 A exploso combinatria de possibilidades quantidade de rvores distintas para o caso de 3 seqncias de atributos:

Tpico 6: rvores Filogenticas

13

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

quantidade de rvores distintas para o caso de 4 seqncias de atributos:

Tpico 6: rvores Filogenticas

14

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

5 seqncias: 15 seqncias: 20 seqncias: n seqncias:

105 rvores candidatas 213.458.046.676.875 rvores candidatas 8.200.794.532.637.891.559.375 rvores candidatas

(2n 3)! 2 (n 2 )!
n 2

a situao melhora quando se toma rvores sem raiz:

(2n 5)! 2 (n 3)!


n 3

encontrar a melhor rvore um problema NP-hard (DAY, 1987)


3.1 Demonstrao

para duas folhas (n = 2) existe apenas uma topologia possvel:

Tpico 6: rvores Filogenticas

15

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

a 3a folha, ao ser inserida, pode se combinar com os outros ns de trs formas diferentes:

a 4a folha, ao ser inserida, pode se combinar com os outros ns de cinco formas diferentes, e assim sucessivamente, at a ensima folha, que poder se combinar com os demais ns de 2n3 maneiras diferentes. Assim, a frmula para n folhas fica: 1 3 5 ... (2n 3) = (2i 3)
i =2 n

multiplicando o numerador e o denominador da ltima expresso por:

(2i 2) =2 4 6 8 ... (2( n 2) 2 ) (2(n 1) 2 )


i =2

n 1

resulta
Tpico 6: rvores Filogenticas

16

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

1 2 3 4 5 6 ... (2n 6) (2n 5) (2n 4 ) (2n 3) 2 4 6 ... (2n 6) (2n 4 ) dividindo todos os n2 fatores no denominador por 2, o nmero de rvores pode finalmente ser apresentado na forma:

(2n 3)! 2 (n 2 )!
n 2

4 Formalizao do conceito de rvore


4.1 Representao de uma rvore com raiz

uma rvore com raiz T pode ser representada por um par ordenado T = (N, f), onde: N um conjunto de ns da rvore, sendo um deles o n-raiz; f uma funo que associa a cada n i N, com exceo do n raiz, um nico n f(i), denominado antecessor imediato ou pai de i. Cada associao de
Tpico 6: rvores Filogenticas

17

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

antecedncia imediata entre dois ns, realizada pela funo f, representa um arco da rvore; dado que um caminho (percurso pela rvore) uma seqncia sem repetio de arcos em que o segundo n de cada arco coincide com o primeiro n do arco seguinte, ento, para quaisquer pares de ns, existe um caminho nico que leva de um destes ns ao outro. dada a rvore da figura 1, ento temos: N = {A, B, C, D, E, F, G}, sendo D o n raiz; f(A) = B; f(C) = B; f(B) = D; f(F) = E; f(G) = E; f(E) = D. f(D) no est definido, pois o n-raiz no apresenta antecessor imediato; no possvel afirmar que f(A) = D, pois embora D seja antecessor de A, D no antecessor imediato de A, papel que cabe ao n B. No entanto, f(f(A)) = D; dado que um antecessor imediato tambm denominado de n-pai, todos os ns que so antecedidos por ele so denominados ns-filhos.

Tpico 6: rvores Filogenticas

18

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

Figura 1: Exemplo que rvore, sendo D o n raiz ns-filhos que tm o mesmo n-pai so denominados de ns-irmos, sendo que o nmero de ns-irmos associados a um dado n-pai denominado grau do n-pai. os ns ligados raiz por arcos formam sub-rvores, que tm estes ns (no caso da figura 1, so B e E) como sub-razes. Tomando cada sub-rvore como uma nova rvore, esta tambm pode ser sub-dividida adotando-se o mesmo procedimento. um n de grau zero chamado folha ou n terminal;

Tpico 6: rvores Filogenticas

19

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

o nvel de um n dado pela sua distncia at a raiz, ou seja, pelo nmero de arcos que devem ser percorridos. O nvel pode ser dado tambm pelo nmero de aplicaes recursivas da funo f. Tomando o exemplo da figura 1, dado que f(f(A)) = D, ento o n A dito ter nvel 2; a altura de uma rvore dada pelo nvel mximo das folhas daquela rvore; quando o grau de qualquer n que no seja n terminal definido como sendo igual a k, ento a rvore chamada de rvore k-ria. dentre as rvores ordenadas de grau limitado destaca-se a rvore binria, onde cada n no-terminal tem dois ns-filhos. Neste caso, dizemos que um filho corresponde sub-rvore da direita e o outro sub-rvore da esquerda; a caminhada por uma rvore binria a principal operao bsica. Atravs dela pode-se percorrer todos os ns seqencialmente e ter acesso a um n especfico. Trs formas de caminhada freqentemente utilizadas so:

Tpico 6: rvores Filogenticas

20

Anlise de Dados em Bioinformtica Prof. Von Zuben DCA/FEEC/Unicamp

caminho pr-fixado: raiz sub-rvore da esquerda sub-rvore da direita. O caminho pr-fixado na rvore da figura 1 produz a seqncia D, B, A, C, E, F, G; caminho central: sub-rvore da esquerda raiz sub-rvore da direita. O caminho central na rvore da figura 1 produz a seqncia A, B, C, D, F, E, G; caminho ps-fixado: sub-rvore da esquerda sub-rvore da direita raiz. O caminho ps-fixado na rvore da figura 1 produz a seqncia A, C, B, F, G, E, D.

5 Referncias bibliogrficas
BROWN, S.M. Molecular Phylogenetics: Computing Evolution, New York University, School of Medicine, Notas de Aula. DAY, W.H.E. Computational complexity of inferring phylogenies from dissimilarity matrices, Bull. Math. Biol, 49:461-467, 1987. PRADO, O.G. Computao Evolutiva Empregada na Reconstruo de rvores Filogenticas, Dissertao de Mestrado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Dezembro de 2001.

Tpico 6: rvores Filogenticas

21

Você também pode gostar