Você está na página 1de 32

Bioinformática

Agrupamento e Análise Filogenética

Leonardo Magalhães Cruz


Aplicações da Análise Filogenética
● Investigação do relacionamento evolutivo entre
espécies
● Pode ser feito a partir de sequências homólogas
ortólogas
● Investigação da evolução funcional de uma
classe de proteínas
● Pode ser feito a partir de sequências homólogas
ortólogas e parálogas para estudar, por ex., uma
atividade enzimática
● Reconstrução de sequências ancestrais
● Ex., análise da atividade de uma enzima ancestral
Estrutura e Interpretação de
Uma Árvore Filogenética
● A finalidade da representação através de uma
árvore filogenética é resumir os principais
aspectos de uma história evolutiva inferida
● A árvore filogenética é um diagrama que
propõe uma hipótese para a reconstrução do
relacionamento evolutivo entre um grupo de
objetos
Número de árvores possíveis
Para 4 taxa há 3 árvores sem raiz possíveis no. de árvores sem raiz possíveis
A C
(2s−5)!
s−3
2 ( s−3)!
no. de árvores com raiz possíveis
B D
A B (2s−3)!
s−2
5 árvores diferentes
podem ser criadas para
2 ( s−2)!
cada umas das árvores s = no. de taxa
sem raiz (15 no total)
Taxa sem raiz com raiz
C A D C ---------------------------------------------
4 3 15
8 10.395 135.135
10 2.027.025 34.459.425
22 3 x 1023
50 3 x 1074
100 2 x 10182
D B
Árvores Filogenéticas
Sem e Com Raiz
Não é possível saber os
pássaros amarelos descenderam Último ancestral comum
dos marrons ou vice versa

Cada nó interno possui três ramos:


Um conectado ao ancestral A árvore indica que os pássaros
Dois conectados aos descendentes amarelos e marrons descendem
de um pássaro marrom
Tipos de Representação de
Uma Árvore Filogenética
Cladograma Comprimento dos
Árvore ramos é igual à
Comprimentos dos divergência evolutiva
aditiva
ramos não possui
significado
A distância entre
dois nós é igual a
soma dos ramos
2+4+3+6=15
Árvore
ultramétrica
Árvore aditiva
com grupo
Mesma taxa de externo
mutação assumida
para todos os ramos

Grupo externo
Escala proporcional ao tempo
e ao no. de mutações por sítio
N1 Nó bifurcado N1 Nó multifurcado
(politomia)

N3 N3
N2 N2
Representação de Uma Árvore
Como Um Grupo de Divisões

Uma divisão em uma árvore


pode ser criada retirando-se
um dos ramos

Escala relativa ao
comprimento dos
ramos (indica 0,2
mutações por sítio)

A retirada de um dos
ramos divide a árvore Divisões
em dois ramos possíveis
Outra Forma de Representar
Uma Árvore Filogenética
Formato Newick ou New Hampshire

((raccoon, bear), ((sea_lion, seal), ((monkey, cat), weasel)), dog);

Os números representam os comprimentos dos ramos


((raccoon:0.20, bear:0.07):0.01, ((sea_lion:0.12, seal:0.12):0.08,
((monkey:1.00, cat:0.47):0.20, weasel:0.18):0.02):0.03, dog:0.25);
Árvore Condensada

Árvore condensada mostrando os ramos


suportados pela análise de bootstrap

Árvore condensada com remoção


dos ramos com valores de bootstrap
abaixo de 60%

Nós de onde partem vários ramos


são gerados
Árvore Consenso
Mostra características que são
consistentes entre as árvores.

Árvores
igualmente
suportadas

Árvore consenso

Mostra somente as divisões


(splits) que ocorrem em todas
as árvores [(A,B,C) e (D,E,F)] Ocorre somente em
50% das árvores
Árvore consenso

Contendo as divisões que ocorrem


em 60% ou 50% das árvores
Evolução molecular e suas consequências
Mutações Observadas e Ocorridas
Distância p esperada se cada sítio
O n de mutações observadas é
o.
recebesse uma única mutação
menor que o no. de mutações
ocorridas devido a sobreposições

Distâncias p – fração de sítios


não idênticos em um alinhamento

A partir de um modelo evolutivo,


uma equação pode ser derivada
para aplicar correções nas
distâncias evolutivas obtidas
diretamente do alinhamento
Transições e Transversões
no. maior de transições observadas em relação
às transversões em genes da subunidade 2 da
citocromo c oxidase de mitocôndrias

Há duas vezes mais possibilidades


para a ocorrência de uma
transversão em relação à transição

Os modelos evolutivos definem ainda taxas


de mutações e preferências de substituições
para cada posição no alinhamento
Conteúdo GC nos códons
Pontos representam o GC%
em 11 bactérias em cada
uma das posições do códon

A terceira posição do códon é


mais adaptada ao genoma
Filogenia de Espécie e de Gene
Genes homólogos podem surgir por diferentes processos:
1. Por especiação – genes homólogos divergem em diferentes linhagens (ortólogos)
2. Por duplicação gênica – genes homólogos divergem em um mesmo genoma (parálogos)

Cilindros representam Árvore filogenética para os genes


a filogenia da espécie
O Efeito da Perda de Genes

Cilindros indicam a
filogenia das espécies
e os traços a filogenia
dos genes

Filogenia errada
Verdadeira dos genes devido
filogenia a perda de genes
dos genes
Reconciled Trees
Combinação entre árvores de espécies e genes Árvore de espécies

Reconciled Tree
Grupo externo
usado para
colocar a raiz

Árvore de genes para os membros da família de


proteínas de membrana das bombas de Na+/K+

Eventos de
duplicação gênica
Transferência Horizontal de Genes
HGT – Horizontal Gene Transfer
LGT – Lateral Gene Transfer
Abordagens para
reconstrução filogenética
● Algoritmica
● Usa um algoritmo para construir a árvore a partir
dos dados
● É rápido, produz um única árvore
● ex., NJ e UPGMA
● Busca por árvores
● Muitas árvores são construídas
● Um critério para escolher a “melhor” árvore é
aplicado
● ex., Parcimônia
Métodos Para
Reconstrução Filogenética
● Métodos baseados em distâncias evolutivas
● Convertem as sequências alinhadas em uma matriz
de distâncias
● A matriz é usada para inferir a ordem e os
comprimentos dos ramos na árvore
● ex., NJ e UPGMA
● Métodos baseados em caracteres
● Usam o alinhamento diretamente
● Compara os caracteres em cada coluna (sítio) do
alinhamento
● ex., Parcimônia
Matriz de Distâncias
Considere 4 espécies caracterizadas pelas sequências homólogas.
A dissimilaridade entre cada par de sequências é medida pelo no.
de diferenças de bases.

S1 = ATCC MATRIZ DE DISTÂNCIAS


S2 = ATGC
S3 = TTCG S1 S2 S3 S4
S4 = TCGG S1 0 1 2 4
S2 0 3 3
SEQUÊNCIAS
S3 0 2
S4 0
Agrupamento
MATRIZ
S1 S2 S3 S4
S1 0 1 2 4
S2 0 3 3
S3 0 2
S4 0
S1 S2
As sequências 1 e 2
serão agrupadas.

Os valores na matriz indicam


diferenças de bases entre os pares de
sequências.

Menor o valor → maior a semelhança


Agrupamento
MATRIZ
S1 S2 S3 S4
S1 0 1 2 4
S2 0 3 3
S3 0 2
S4 0
S1 S2 S3 S4
MATRIZ RECALCULADA
S(12) S3 S4
S(12) 0 2,5 3,5
S3 0 2
S4 0 e(12)4 = e14 + e24
e(12)4 = 4 + 3 = 7/2 = 3,5

e(12)3 = e13 + e23


e(12)3 = 2 + 3 = 5/2 = 2,5 As sequências 3 e 4
serão agrupadas
Agrupamento
MATRIZ
S1 S2 S3 S4
1,5 1,5
S1 0 1 2 4
S2 0 3 3
S3 0 2 0,5 0,5 1,0 1,0
S4 0
S1 S2 S3 S4
MATRIZ RECALCULADA Árvore gerada
S(12) S3 S4 Os comprimentos dos ramos equivalem a
S(12) 0 2,5 3,5 metade das distâncias entre os grupos.
S3 0 2
S4 0
e(12)(34) = e13 + e14 + e23 + e24
e(12)(34) = 2 + 4 + 3 + 3 = 12/4 = 3
MATRIZ RECALCULADA
S(12) S(34)
S(12) 0 3 As sequências 12 e 34
S(34) 0 serão agrupadas
Aplicação em Análise de RFLP
0 .9 0 .8 0 .7 0 .6 0 .5 0 .4 0 .3 0 .2 0 .1
A B C D E F G H I
org _D

1 1 1 0 0 0 0 0 0 org _H

0 0 0 0 1 1 0 0 0 org _I

0 0 0 1 1 1 1 1 1 org _G
0 0 0 1 1 1 1 1 1 org _E
1 1 1 0 0 0 0 0 0 org _F
. . .
. . . org _C

. . . org _A

org _B

Objeto k
1 0
A B C D E F
d 11 Objeto j 1 a b
d 12 d 22 0 c d
d 13 d 23 d 33
d 14 d 24 d 34 d 44
d 15 d 25 d 35 d 45 d 55
d 16 d 26 d 36 d 46 d 56
Coeficiente de Jaccard
d 17 d 27 d 37 d 47 d 57 d 66 Cjk = a / (a + b + c)
Neighbor Joining (NJ)
● Também recalcula e reduz a matriz a cada
etapa
● Reconstroi a árvore a partir do conjunto de
matrizes geradas
● Diferente do UPGMA, calcula distâncias para
os nós internos diretamente
Neighbor Joining (NJ)
● Método
● Para cada taxon, calcula sua divergência média em
relação a todos os demais
● Calcula uma matriz corrigida a partir das
divergências médias
● Encontra o par de taxa com a menor distância
corrigida
● Calcula a distância de cada um até o nó que os une
● Recalcula a matriz com os taxa unidos
Máxima parcimônia
ATCA
A→G A→T Árvore com
máxima parcimônia

ATCG TTCA
C→G T→C

ATCG ATGG ACCA TTCA

ATCG
G→A A→T
Árvore alternativa

ATCA TTCG
A→ A→T T→A G→A
G T→C C→G

ATCG TCCA ATGG TTCA


Confiabilidade da árvore
método bootstrap
● Estima a confiabilidade da topologia
● Método
● Sítios aleatórios são tomados de uma alinhamento
– Amostragem com repetição
● Um pseudoalinhamento é gerado
– Mesmo comprimento do original
– Vários pseudoalinhamentos podem ser gerados
● Uma pseudoárvore é construída
– Uma pseudoárvore para cada pseudoalinhamento
● O no. de vezes que cada grupo na árvore original
aprarece nas pseudoárvores é mostrado
Bootstrap
Bootstrap

Você também pode gostar