Você está na página 1de 7

ANÁLISE FILOGENÉTICA

Tradicionalmente os estudos filogenéticos eram feitos a


partir de análises morfológicas e fisiológico dos organismos.
Porém com o sequenciamento massivo do DNA, os
caracteres utilizados nessa análise passaram a ser os
nucleotídeos ou os aminoácidos.

VANTAGENS DA FILOGENIA MOLECULAR

 Os dados obtidos no estudo de DNA ou proteínas são mais


apropriados que os dados morfológicos ou fisiológicos para
a construção de árvores filogenéticas. Isso ocorre por vários
motivos:

A. DNA e proteínas são entidades herdáveis, o que não é o


As mudanças moleculares ocorridas ao longo da evolução, caso de todas as características morfológicas.
ficam registrados no DNA dos organismos, sendo possível
predizer as relações evolutivas a partir do estudo das suas B. A descrição das características moleculares é inequívoca,
sequências. pois elas podem ser "mais ou menos grandes" ou "um
pouco mais altas". Em uma proteína, a posição 23 pode ser
ocupada por uma metionina e em outra proteína por
leucina, e isso não está sujeito a nenhum tipo de
 Uma importante aplicação é na epidemiologia, no
interpretação.
estudo evolutivos de patógenos.
C. As moléculas geralmente evoluem de uma maneira
muito mais regular do que as características morfológicas
Uma árvore filogenética é um diagrama que representa ou fisiológicas e isso nos permite deduzir de uma maneira
relações evolutivas entre organismos.  muito mais precisa as relações entre os organismos.

D. Os dados das biomoléculas são muito mais


PARTES DE UMA ARVORE FILOGENÉTICA
matematicamente gerenciáveis e isso facilita a criação de
As árvores filogenéticas têm dois componentes principais: algoritmos que ajudam a resolver problemas filogenéticos.
relacionamentos de parentesco (que conhecemos como
topologia de árvore) e a quantidade de mudança E. A detecção de homologia é muito mais fácil a partir de
acumulada em cada ramo (que conhecemos como dados moleculares do que características morfológicas.
comprimento de ramo). Os nós terminais representam as
F. Os dados moleculares permitem avaliar as relações
espécies, grupos ou sequências em estudo e são todos
evolutivas entre organismos muito distantes entre si, que
contemporâneos.
não possuem mais apenas características morfológicas que
permitem essa avaliação.

G. Os dados moleculares são muito mais abundantes. Isso


permite o estudo filogenético de grupos como bactérias ou
fungos, que não apresentam características morfológicas
facilmente distinguíveis.

FILOGENIA
Filogenia é uma hipótese acerca das relações de parentesco
entre os seres vivos. ◦ Filogenias são representadas através
de árvores filogenéticas.
1) A raiz da árvore representa a linhagem ancestral, e as Árvore Ultra-métrica: pode ser construída a partir da
pontas das ramificações representam os descendentes anterior. Os nós externos se encontram alinhados. Os
desse ancestral. Conforme você avança da raiz para as ramos são aditivos seguindo a hipótese do relógio
pontas, você está avançando no tempo. molecular.

2) Quando uma linhagem se divide (especiação –


representada por um nó na árvore), é representada como
uma ramificação na filogenia. Quando um evento de ÁRVORES EQUIVALENTES  Árvores equivalentes mantêm
especiação ocorre, uma única linhagem ancestral dá origem a mesma topologia (elas são semelhantes) apesar de
a duas ou mais linhagens filhas. rotacionar um ou mais de seus nós internos.

4) De forma semelhante, cada linhagem tem ancestrais que


são únicos para aquela linhagem e ancestrais que são
partilhados com outras – ancestrais comuns.
ÁRVORES SEM RAIZ (ÁRVORES NÃO RAITADAS) Uma
árvore sem raiz agrupa e conecta táxons,
independentemente da ordem temporal na qual os grupos
se separam evolutivamente. Ou seja, nos fornece
informações sobre as relações evolutivas entre as várias
sequências ou espécies, mas sem especificar o ancestral
TIPOS DE ARVORES FLOGENÉTICAS comum de todas elas ou a ordem temporal em que as
várias ramificações ocorreram. O comprimento de cada
Cladograma: Arvore não escalonada. O comprimento dos ramo é proporcional à distância evolutiva interna.
ramos não tem nenhum significado evolutivo.

Filograma: Arvore escalonada. O tamanho comprimento


dos ramos é proporcional a diferença evolutiva. São
indicativos geralmente de mudanças acumuladas com o
tempo. Conhecida também como arvore aditiva, já que a
distância entre as espécies se calcula somando o
comprimento dos ramos que as conectam com um UTILIDADES DAS ÁRVORES FLOGENÉTICAS
ancestral comum.

Existem muitos benefícios das árvores filogenéticas, mas


vamos destacar duas delas em que a bioinformática pode
desempenhar um papel fundamental.
Descubra a relação de um organismo de estudo com ALINHAMENTO MÚLTIPLO (MSA)
outros já conhecidos. Por exemplo, se você estiver
É a parte mais importante do processo.
estudando uma nova espécie de fungo unicelular, poderá
sequenciar seu RNA ribossômico e compará-lo com outras Alinhamentos incorretos provavelmente levarão a árvores
sequências conhecidas de RNA ribossômico fúngico. Isso filogenéticas incorretas.
nos dará uma boa idéia da posição de nosso organismo
problemático na história evolutiva. Podemos usar vários programas para o mesmo
alinhamento e comparar os resultados.
Determine a função de um gene. Se estivermos estudando
um gene com função desconhecida, podemos usar árvores As posições ambíguas dos alinhamentos podem ser
filogenéticas para localizar outros genes ortólogos bem eliminadas a critério do pesquisador.
caracterizados no nosso, e assim seremos capazes de inferir
a função do nosso gene problemático. Já vimos o uso de alguns programas para realizar MSAs,
como o T-Coffee.

MODELO DE SUBSTITUIÇÃO OU EVOLUÇÃO


CONSTRUÇÃO DE ÁRVORES FLOGENÉTICAS
O número observado de substituições pode não
Para construir uma árvore filogenética a partir de dados representar os verdadeiros eventos evolutivos que
moleculares, é essencial seguir estas etapas. realmente ocorreram. Quando uma mutação é vista como
A substituída por C, o nucleotídeo pode realmente ter
1. ESCOLHA O TIPO DE SEQUÊNCIA.
passado por várias etapas intermediárias para se tornar C,
2. FAÇA UM MSA BEM FEITO.
como A → T → G → C. Da mesma forma, uma mutação
3. ESCOLHA O MODELO DE EVOLUÇÃO OU
poderia ter ocorrido quando um nucleotídeo mutado se
SUBSTITUIÇÃO.
revertia. para o nucleotídeo original. Isso significa que,
4. ESCOLHA O MÉTODO DE CONSTRUÇÃO DA
quando o mesmo nucleotídeo é observado, mutações como
ÁRVORE.
G → C → G podem realmente ter ocorrido. Além disso, um
5. AVALIE A CONFIABILIDADE DA ÁRVORE.
nucleotídeo idêntico no alinhamento pode ser devido a
Além disso, é necessário assumir algumas premissas: mutações paralelas quando as duas sequências se mutam
em T, por exemplo. Tais substituições múltiplas e
As sequências utilizadas devem ser homólogas, ou seja, convergência em posições individuais obscurecem a
devem ter uma origem comum. estimativa de distâncias evolutivas verdadeiras entre
sequências. Esse efeito é conhecido como HOMOPLASIA,
Os ramos devem se ramificar apenas em dois ramos filhos que, se não for corrigido, pode levar à geração de árvores
(dicotomia). Multibifurcação ou politomia podem ocorrer incorretas. Para corrigir a homoplasia, são necessários
em processos de radiação adaptativa. modelos estatísticos para inferir as verdadeiras distâncias
evolutivas entre as sequências.
Cada nucleotídeo ou aminoácido em uma sequência evolui
independentemente. O número observado de mutações pode não representar o
número real de alterações que ocorreram.
TIPO DE SEQUÊNCIA
Para corrigir a homoplasia, existem vários modelos,
Podemos usar uma seqüência de DNA ou proteína. chamados evolução ou substituição. Entre os mais
utilizados estão:
Não é o mesmo, já que o código genético é degenerado, ou
seja, alterações nos nucleotídeos não implicam
 Modelo de Jukes-Cantor: Suponha que todos os
necessariamente alterações nos aminoácidos.
nucleotídeos sejam substituídos com igual
Sabe-se que o uso de proteínas tem mais vantagens na probabilidade. [Assume que todos os nucleotídeos
realização do MSA. têm a mesma probabilidade de mudar para
qualquer um dos outros nucleotídeos]
Ocasionalmente, sequências nucleotídicas podem ser  Modelo de Kimura: Suponha que as transições
usadas em sequências mais relacionadas, onde a maior taxa ocorram com mais frequência que as transversões,
de alteração nesse tipo de sequência pode ser uma o que é mais realista.[ Assume taxas diferentes
vantagem. entre transições (A-G, C-T) e transversões (A-C, A-
T, C-G, G-T).]
ALGORITMOS DE CONSTRUÇÃO DE ÁRVORES FITCH-MARGOLIASH
FLOGENÉTICAS
Fitch-Margoliash (FM): compara todas as topologias
MÉTODOS BASEADOS EM DISTÂNCIA: Eles são baseados na possíveis e escolhe a que melhor se ajusta à matriz de
distância entre sequências. Uma medida simples da distância. É mais preciso que os anteriores, mas muito caro
distância ou divergência entre duas sequências é contar o em termos de computação (não é viável em mais de 12
número de substituições observadas em um alinhamento. A sequências)
taxa de substituição define a distância entre as duas
sequências. Esse valor também é conhecido como número MÉTODOS BASEADOS EM Caracteres Eles usam
de Hammer. diretamente o MSA, portanto, levam em consideração as
informações de resíduos específicos. Eles comparam cada
P (distância) = n / N resíduo (aminoácido ou nucleotídeo) em cada coluna do
alinhamento. Eles usam o modelo evolutivo ao longo do
onde n é o número observado de substituições e N é o
processo. Esses métodos permitem a construção de árvores
comprimento da sequência;
muito realistas, mas são exigentes computacionalmente.
Esse valor geralmente é corrigido usando métodos
diferentes, alguns dos quais vimos no ponto anterior. Com MÁXIMA PARSIMONIA (MP)
as distâncias entre pares de sequências já calculadas, Máxima Parsimonia (MP): A árvore com o menor número
matrizes de distâncias são construídas entre todas as de alterações evolutivas ou menor comprimento de ramo
sequências. Eles usam apenas o modelo evolutivo para em geral é um bom candidato para ser o correto. A
calcular as distâncias e, posteriormente, usam métodos construção da árvore com esse método é realizada através
diferentes para agrupar as sequências. Eles não são da pesquisa entre todas as possíveis topologias de árvore,
excessivamente precisos, mas são relativamente fáceis de optando pela que requer o número mínimo de alterações
construir e computacionalmente rápidos. nas sequências.

UPGMA •No alinhamento utiliza somente os sítios informativos


•funciona melhor com o relógio molecular •Busca
(Unweigthed Pair Group Method using arithmetic
heurística •busca branch & bound •Busca exaustiva
Averages) Pair Group Method using arithmetic Averages)
 Vantagens – Método com premissas simples; – Deve
UPGMA: A árvore é construída a partir do par de
resultar em dados confiáveis: – Homoplasia e substituições
sequências mais semelhante e adiciona sequências
múltiplas forem raras ou distribuídas aleatoriamente na
posteriormente. Suponha que todos os táxons tenham a
topologia. – Amostragem densa.
mesma taxa de evolução (Relógio Molecular, o que
raramente acontece). Amplamente utilizado na educação.  Desvantagens – Pode levar a resultados errados se
homoplasia for comum ou concentrada em partes
Vantagens e desvantagens:Quando os dados cumprem a
específicas da árvore. Exemplo: – Desvio de composição de
proposta do algoritmo, o resultado fornece uma árvore
bases; – Atração de ramos longos. Mais de uma linhagem
filogenética ótima • É um método rápido • A desvantagem
acumulando substituições em velocidade diferente das
principal é que para dados reais, raramente se cumpre a
demais linhagens. – Exige muito esforço computacional
propriedade ultra-métrica.
(Tempo).
 Gera uma arvore sem raiz
MÁXIMO VEROSSIMILHANÇA
NEIGHBOUR JOINING
Máximo verossimilhança (ML): Baseia-se em modelos
Neighbour Joining (NJ): A árvore é construída da mesma probabilísticos. Talvez seja o método mais preciso de todos,
forma que a anterior, mas a corrige assumindo diferentes exceto o impossível de usar com um grande número de
taxas de evolução que calcula através de diferentes táxons.
fórmulas matemáticas.
– O processo de substituição segue um modelo
Vantagens e desvantagens:• Método simples e muito probabilístico onde a expressão matemática, mas não os
rápido; • Pode ser aplicado em bases de dados muito valores dos parâmetros são conhecidos a priori. – Os sítios
extensas. • Não considera os dados originais, apenas as evoluem independentemente – Todos os sítios seguem o
distancias. mesmo processo de substituição – As probabilidades de
substituição não mudam com o tempo (elas podem variar
 Gera uma arvore com raiz entre os ramos)
Vantagens: - Utiliza todos os sítios; - É o melhor modelo de MEGA: Programa muito completo para a análise
um ponto de vista teórico; - Permite considerar modelo filogenética de sequências de DNA e proteínas. Baixe para
evolutivo específico; - Estimativa acurada dos tamanhos de Windows, Mac e Linux.
ramo (substituições/ sítio) mesmo quando ocorre
substituições múltiplas; - Menos sensível a atração de
ramos longos se o modelo for adequado.

Desvantagens: - Valores dos parâmetros são estimados e


fixados a partir dos dados e podem não refletir
adequadamente as taxas naturais de substituição e
frequências se a amostragem não for significativa; -
Praticamente impossível avaliar todas as possíveis árvores,
é feita uma exploração parcial das árvores. - Exige muito
esforço computacional (Tempo).

USANDO SOFTWARE
AVALIAÇÃO DA CONFIABILIDADE
Após a construção da árvore filogenética, o último passo é MEGA
avaliar sua confiabilidade. Existem várias técnicas SITE: https://www.megasoftware.net/show_eua
estatísticas para realizar essa avaliação, e uma delas é
chamada BOOTSTRAPPING. Essa técnica produz Vamos usar o programa MEGA X;
repetidamente novas árvores a partir dos dados originais,
mas adicionando pequenos erros aleatoriamente. O O primeiro passo é obter um arquivo que pode ser
método baseia-se no fato de que, se a topologia da nossa principalmente Fasta com todas as sequências que serão
árvore original for forte o suficiente, ela poderá utilizado. Então essas sequências serão submetidas a um
permanecer constante, apesar das pequenas alterações alinhamento múltiplo de sequências.
inferidas nos dados; se for menos confiável, as
modificações introduzidas podem gerar árvores diferentes,
variando as partes menos confiáveis. O modelo cria uma
árvore de consenso com todas as árvores obtidas,
indicando a confiabilidade de cada um dos ramos.

 O valor de bootstrap representa número de vezes


que o agrupamento ocorreu nas replicações.

O ideal é fazer 1000 ou mais replicatas

Um agrupamento tem um bom suporte se ocorreu em


mais de 80% das árvores (idealmente em mais de 95%)

Pode ser chamado de nível de confiança da ocorrência para


um determinado clado (agrupamento)

Não avalia a exatidão de uma árvore, somente indica a 1) Clica em Align, e em Edit/build alingnment, e
consistência e estabilidade de clados individuais. adiciona o arquivo FASTA clicando na figura da
pastinha.
SOFTWARE
SIMPLE PHYLOGENY: Ferramenta gratuita e online.
Pertence ao EBI.

PHYLEMON 2: Kit de ferramentas da Web para evolução


molecular e filogenia.

PHYLIP: É um pacote gratuito de programas para inferir


filogenias. Baixe para Windows, Mac e Linux.
Clicando na nessa primeira opção, tradicional e retangular,
podemos ver a distância evolutivas entre as sequências.

Para efetuar o alinhamento, clicar na figura do muque


(MUSCLE ALIGN) Clicando em percentagem

Vemos então o alinhamento e as coincidência entre os


aminoácidos alinhados representados por um * e pelas
cores características.

OBS: (poderia também ter usado CLUSTAL W, apertando no


W) Nessa opção podemos avaliar a quantidade de diferenças
acumuladas com o passar do tempo, em cada ramo da
 Agora precisamos salvar o alinhamento que arvore.
fizemos, em formato MEGA. Para isto, clicamos
Data, seguido de Export Alignment, e seleciona o
formato MEGA. (Então fechamos esta aba que já
está salva).

2) Para começar vamos abrir o alinhamento que


salvamos, clicando em DATA, seguido de open file.

Desmarcando esta opção selecionada, podemos avalizar a


distancias entre os ramos da arvore.

----------------------------------------x---------------------------------
 Vamos até PHYLOGENY para executar o arvore
filogenética, e selecionar contruct/Test maximum USANDO SOFTWARE
parsimony tree.
CLUSTAL OMEGA  SIMPLE PHYLOGENY

SITE: https://www.ebi.ac.uk/Tools/msa/clustalo/

Programa: Clustal ômega  Simple Phylogeny

https://www.ebi.ac.uk/Tools/msa/clustalo/
Em result sumary podemos acessar a matriz de distância
(Distance Matrix)

Em option vamos selecionar: Distance matrix, UPGMA e


(PIM-- ON) e distance correction --ON

Fornece primeiro esta arvore com raiz(ou seja um Percent identity matriz, podendo comprar a similaridade
cladograma) entre as sequências

Nas duas matrizes a leitura consistem em: Cada linha


corresponde a uma sequência, assim como cada coluna
corresponde as mesmas sequenciais listas em cada linha.
Cruzando linha e coluna descobrimos o valor
correspondente, seja de distância ou de identidade.

Na opção Real vemos um filograma, os diferentes


comprimentos dos ramos, e ao final de carda espécie,
aparece a distância do ramo terminal

Você também pode gostar