Você está na página 1de 47

Uma Viso Geral Sobre

Reconstruo Filogentica
Andr Ricardo
arsl@cin.ufpe.br
Marlus Barbosa
mbs2@cin.ufpe.br

Agenda
Filogenia
Uso da filogenia em pesquisa biolgica
Etapas da anlise filogentica
Problemas de pesquisa em filogenia molecular
Mtodos de reconstruo de rvores

filogenticas
Concluso

Filogenia

Uso Da Filogenia
Utilizaes diversas e crescentes:
Estudo comparativo.
Testar hipteses biogeogrficas.
Inferir informaes extintas.
Rastrear evoluo de doenas.
Casos criminais.

Anlise Filogentica,
como feita na
prtica?

Etapas:
Projeto Do Estudo
Amostragem:

Taxon, Tamanho, Geografia, Presena de

amostra.

Caractersticas:
No-recombinvel (mitocndrias,

cloroplastos).
De nica cpia gentica.
Prontamente amplificvel (PCR).
Facilmente seqenciados.
Boa velocidade de evoluo.

Etapas:
Coleta De Organismos

Etapas:
Laboratorial

Etapas:
Alinhamento Mltiplo

Etapas:
Reconstruo
Filogentica
Modelos estocsticos:
(1/8)
Jukes-Cantor (JC).
General Time Reversible (GTR).

Padro de evoluo:
Incio na raiz,
Evoluo sobre a rvore.

Mudana de estados.

Etapas:
Reconstruo
Filogentica
Freqncia de evoluo:
(2/8)

Etapas:
Reconstruo
Filogentica
Modelo JC:
(3/8)
Se um stio muda seu estado, ele muda com
igual probabilidade para os outros estados.

Etapas:
Reconstruo
Filogentica
Modelo GTR:
(4/8)
Reversvel no tempo.
Mudana de estado,

Matriz de substituio 4x4.

Etapas:
Reconstruo
Filogentica
Mtodos:
(5/8)
Distncia dos pares.

Tempo polinomial; rpida e prtica.

Maximum Parsimony (MP), Maximum Likelihood

(ML).
Markov Chain Monte Carlo (MCMC).

Etapas:
Reconstruo
Filogentica
Mtodo MP:
(6/8)

Entrada: conjunto S de seqncias, de tamanho k,

em um alinhamento mltiplo.
Sada: rvore T, cujas folhas so referenciadas por
S, e com seqncias adicionais, todas de tamanho
k, referenciando os ns internos de T, que
minimiza a frmula:

NP-hard.

Etapas:
Reconstruo
Filogentica
Mtodo ML:
(7/8)
Entrada: Conjunto S de seqncias de mesmo

tamanho, e um valor B.
Sada: Uma rvore modelo (T,p), de modo que
Pr[S|T,p] >= B, seno falha.

NP-hard.

Etapas:
Reconstruo
Filogentica
Mtodo MCMC:
(8/8)
Random walk.
A sada no uma rvore.

Distribuio de probabilidade.

Etapas:
Suporte

Avaliao

Qual a melhor reconstruo?

Medida de Confiabilidade.
Arestas.
Data-mining.
Abordagem combinatria.
Abordagem estatstica.

Suporte Avaliao:
Abordagem
Combinatria

Tcnica do consenso:

Conjunto de melhores rvores.

Inicialmente igualmente confiveis.

Inferncia da melhor rvore.

Bipartio induzida de arestas.

Suporte Avaliao:
Abordagem
Estatstica
(1/2)

The Bootstrap:

Reamostragem.
rvore Bootstrap.
Comparao com a rvore reconstruda:

Armazenamento de informaes sobre as arestas.

Suporte Avaliao:
Abordagem
Estatstica
(2/2)

The Jackknife:

Remoo aleatria de stios.


Reconstruo.

MCMC:
Freqncia de cada rvore visitada.

Problemas De Pesquisa Em
Filogenia Molecular

Problemas De Pesquisa:
Anlise De Performance
Simulao:
Algortmica
Escolha de um modelo estocstico de evoluo.
Seqncia de tamanho qualquer.

Evoluo sobre a rvore T.


Adio de outras sequncias nas folhas.

Mtodo de reconstruo.

Reconstruo da rvore T.

Comparao T versus T.

Problemas De Pesquisa:
Reconstruo
Filogentica
Buscas heursticas para MP e ML:
(1/3)
Baseadas em hill-climbing.
Mximo local.
Fuga do mximo local: The Ratchet.

Tempo impraticvel.

Problemas De Pesquisa:
Reconstruo
Filogentica
MP:
(2/3)
Por que MP to bom?

Problemas De Pesquisa:
Reconstruo
Filogentica
ML:
(3/3)
Comparar possveis scores.

Problemas De Pesquisa:
Alinhamento Mltiplo (MSA)

Nenhum critrio atingiu aceitao geral...

Problemas De Pesquisa:
Filogenia em Larga-escala
Mtodos NP-hard
Conjunto das melhores rvores
Dados desconhecidos
MSA complicado

Aspectos De Reconstruo
De
rvores
Filogenticas
rvores:
(1/2)
Topologia.
Distncia entre ns.
Raiz.

Aspectos De Reconstruo
De
rvores
Filogenticas
Entradas:
(2/2)
Caractersticas discretas (matriz de estados).
Dados numricos comparativos (matriz de

distncias).
Caractersticas contnuas.

Problema Da Filogenia
Perfeita
(1/3)

Dados um conjunto de objetos e um conjunto de


caractersticas, temos uma matriz de estados.
Problemas ao se criar uma filogenia:
Convergncia ou evoluo paralela.
Reverses.

Para evitar isso, na rvore T desejada, queremos

que, para cada estado de uma caracterstica, o


conjunto de todos os ns que possuem essa
caracterstica forme uma subrvore.

Problema Da Filogenia
Perfeita
(2/3)

Computacionalmente difcil.
Mas pode ser simplificado em casos especiais:
Caractersticas binrias.
Duas caractersticas.

Problema Da Filogenia
Perfeita (3/3)

Filogenia Com Matrizes De


Distncia
(1/7)

Dois problemas:

Dada uma matriz de distncias, construir uma rvore

com arestas com peso, onde cada folha seja apenas


um objeto da matriz e tal que as distncias entre
duas folhas correspondam s distncias dadas na
matriz.
Esse problema exige que as distncias na matriz
sejam aditivas, uma condio pouco comum. Da
surge o segundo problema:
Construir a rvore com duas matrizes, que serviro
como limites superior e inferior das distncias entre
os objetos.

Filogenia Com Matrizes De


Distncia
(2/7)
rvores aditivas.
Matriz de entrada precisa ser um espao mtrico

aditivo.

O algoritmo consiste em calcular a rvore para dois

objetos (uma aresta) e a partir da acrescentar


outros objetos.

Filogenia Com Matrizes De


Distncia (3/7)

Filogenia Com Matrizes De


Distncia
(4/7)

O problema com rvores aditivas que


distncias dois a dois sempre possuem
incertezas.
Utilizar duas matrizes.
Limites inferior e superior.

rvores ultramtricas:
rvores enraizadas, tais que o comprimento de
todos os caminhos raiz-folha seja igual.

Filogenia Com Matrizes De


Distncia
(5/7)

Minimum Spanning Tree (MST).


Calcular Cut-Weights para cada aresta.
Construir a rvore propriamente.

Filogenia Com Matrizes De


Distncia (6/7)

Filogenia Com Matrizes De


Distncia (7/7)

Mtodos Supertree (1/5)


Tentam estimar a histria evolucionria de

um conjunto atravs das histrias dos seus


subconjuntos.
Tree of Life.
Recomendado para problemas de larga
escala e com dados faltando.
Meta anlises.
Supermatrizes.
Mtodos supertree podem ser usados como
parte de uma estratgia dividir e conquistar.

Mtodos Supertree (2/5)


Compatibilidade de rvores.
Refinamento.
Compatibilidade.

Problema: dado um conjunto de rvores, cada um

sobre um conjunto de caractersticas, encontrar


uma rvore que refine todas as rvores do conjunto.
Problema NP-hard.
Caso em que as rvores so enraizadas: tempo
polinomial.
Infelizmente, as entradas para o problema tendem a
no ser compatveis.

Mtodos Supertree (3/5)

Mtodos Supertree (4/5)


Matrix Representation Parsimony (MRP).
Mtodo que lida com incompatibilidades nas
entradas.
Cria uma matriz para cada rvore, concatena
todas as matrizes e analisa a matriz
concatenada com o mtodo de mxima
parsimnia.
Apesar de ser bom na teoria, sua aplicao

prtica pouco clara.

Mtodos Supertree (5/5)


Existem outros mtodos que lidam com

rvores que contm erros.


Consenso estrito de Gordon e DCM.

Apesar do potencial dos mtodos pouco se

sabe sobre seu funcionamento com dados


reais.

Reconstruo De Filogenias
Genmicas

Ao invs de analisar seqncias, analisa


genomas completos.
Modificaes genmicas e anlises mais
profundas.
Modelos estatsticos pouco desenvolvidos.
Computacionalmente muito mais complexo.

Concluses
Mtodos de reconstruo filogenticas

apresentam desafios profundos e complexos.


Compreender aspectos como dados e
mtodos e como os bilogos usam filogenias
pode ser crucial.

Você também pode gostar