Você está na página 1de 18

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/322701351

Metodologia da Inferência Filogenética

Chapter · December 2017

CITATIONS READS

0 8,214

3 authors:

Guilherme Gainett Pedro Henrique Dias


Boston Children's Hospital Leibniz Institut zur Analyse des Biodiversitätswandels
40 PUBLICATIONS 379 CITATIONS 48 PUBLICATIONS 382 CITATIONS

SEE PROFILE SEE PROFILE

Rachel Montesinos
University of São Paulo
15 PUBLICATIONS 96 CITATIONS

SEE PROFILE

All content following this page was uploaded by Guilherme Gainett on 25 January 2018.

The user has requested enhancement of the downloaded file.


Guilherme Gainett
Pedro Henrique S. Dias
Rachel Montesinos

Este capítulo busca conduzir o leitor pelas etapas que se sucedem desde a observação até a
obtenção da melhor hipótese filogenética. O foco será em como informações morfológicas são
utilizadas para inferir filogenias, porém os princípios são igualmente aplicáveis a outros tipos de
dados (ver Capítulo 7 para tratamento de dados moleculares). Várias das explicações estão
amparadas no critério de Parcimônia, porém as etapas e conceitos são igualmente parte das
análises com outros critérios de otimalidade (e.g., Máxima Verossimilhança e Análise Bayesiana).
Antes de começar, é importante nos perguntarmos onde queremos chegar ou, em outros termos,
qual é o objetivo da Sistemática Filogenética?

A Sistemática Filogenética busca entender a diversidade biológica, desvendando quais são as


relações de parentesco entre os seres vivos. Graficamente, o resultado pode ser expresso sob a
forma de uma árvore filogenética. Na prática, a tarefa de obter a melhor hipótese de relações entre
táxons não é um processo de construção da melhor árvore, mas sim o de encontrar diversas árvores
e discernir qual delas é a melhor. Isso, pois dado um número de terminais, o número de diagramas
dicotômicos possíveis já está matematicamente determinado, ou seja, todas as árvores possíveis já
existem. A coleção de árvores para um determinado número de terminais nada mais é do que todas
as combinações de adjacência (unindo terminais dois a dois) possíveis. Com isso em mente,
dividimos o capítulo em seis partes: 1) Levantamento e codificação de caracteres; 2) Qual a melhor
árvore: Critérios de Otimalidade; 3) Otimização de caracteres; 4) Busca de árvores; 5)
Enraizamento; 6) Suporte. Respectivamente, as seções tratam de 1) como se obtém evidência para
escolher as árvores, 2) qual critério objetivo se usa para escolher as árvores, 3) como se atribui

67
valores às árvores dado um critério, 4) como se busca a melhor árvore; 5) como é dado sentido
temporal ao diagrama; 6) qual a confiança de um determinado clado.

Levantamento e codificação de caracteres

O passo que precede o levantamento de caracteres é a escolha do grupo de interesse (grupo


interno, ver seção Enraizamento), ou seja, as unidades a serem analisadas. Unidades lineanas, como
Ordem e Família, são construções abstratas, sendo a espécie, portanto, a unidade que tomamos
como operacional. Na prática, uma análise filogenética não necessariamente precisa se restringir ao
nível de espécie. É possível determinar as relações entre os indivíduos de uma população (um ramo
conhecido como Filogeografia; ver Capítulo 12) e até mesmo entre famílias de genes dentro de um
indivíduo! Para a Sistemática Filogenética, no entanto, o objetivo é compreender como as linhagens
se diversificaram ao longo do tempo, abrangendo níveis supraespecíficos.
Em um primeiro momento, identificamos uma característica em uma espécie e buscamos uma
correspondência evolutiva dessa característica entre os grupos de interesse. Partindo da premissa de
que as espécies possuem uma relação de ancestralidade, buscamos captar o rastro deixado pela
evolução nas espécies, o sinal das transformações entre as partes que identificamos. A primeira
consideração é que essa correspondência é uma hipótese sujeita a erro: com base em evidências
alternativas e critérios (e.g., posição, congruência de expressão gênica), devemos buscar o máximo
de embasamento para gerá-las. A segunda consideração é que nem todas as características contam a
história certa, ou seja, nem todo atributo, por mais que corretamente identificado, possui um bom
sinal filogenético. Somente testando reciprocamente diversas hipóteses de transformação entre
partes é que podemos determinar qual a melhor hipótese de parentesco. Ao processo de identificar
uma correspondência evolutiva entre atributos e compará-la entre grupos é dado o nome de
codificação. Ao codificarmos, identificamos a variável (o caráter) e os estados em que essa variável
pode ocorrer (estados de caráter). Vale a pena ressaltar que caracteres são indivíduos históricos, i.e.,
estão delimitados no espaço e no tempo, e portanto, são sujeitos a mudanças – transformações
evolutivas. Em outras palavras, um caráter é composto por dois ou mais objetos (estados)
conectados por um evento (transformação).
Tomemos como exemplo a estrutura quelícera nas Ordens de Arachnida. Considerando que
estejamos interessados na filogenia de Arachnida (i.e., espécies de Arachnida formam o grupo
interno), podemos codificá-la como “Ocorrência de Quelícera: Presente ou Ausente”. Neste caso, a
quelícera é a variável observada (o caráter), e presente ou ausente são seus estados. Embora a
codificação esteja correta, este caráter não é informativo para as relações que queremos descobrir,
pois é uma condição que não sofreu transformações adicionais no grupo de interesse. O caráter
68
Ocorrência de Quelícera não é informativo para as relações do grupo interno Arachnida, mas um
caráter codificando modificações da conformação da quelícera seria. A quelícera é uma estrutura
que passou por uma série de transformações ao longo da evolução do grupo, e são as mudanças
entre os estados dessa série de transformação (entre os estados de caráter) que constituem a
evidência para a análise. Codificar o caráter como “Tipo de Quelícera: Quelada ou Subquelada”, ao
invés de presente/ausente, satisfaz essa condição, pois essas modificações na quelícera são marcos
no surgimento de várias aracnídeos.
O surgimento ou desaparecimento de uma estrutura codificada com a forma presente/ausente
também constitui evidência, nos casos em que essa transformação (de presente para ausente ou
vice-versa) ocorre no grupo interno. No entanto, a codificação errônea de transformações como
presença/ausência é problemática. Uma premissa da Sistemática Filogenética é que caracteres são
variáveis independentes. Sendo assim, o caráter Tipo de Quelícera deve representar uma mudança
evolutiva única, específica e que une historicamente as diferentes condições observadas nas
quelíceras dos aracnídeos. Observe o que acontece quando codificamos os dados sobre quelíceras
da seguinte forma: Quelícera Quelada: (0) Presente, (1) Ausente; e Quelícera Subquelada: (0)
Presente, (1) Ausente; nesta situação, criamos dois caracteres que não são variáveis independentes,
pois ambos fazem parte de um mesmo caráter, como visto acima. Essa duplicação de informação é
negativa, pois distorce a evidência e as relações de parentesco inferidas. Um dos papéis mais
importantes do sistemata filogenético, portanto, é identificar e codificar corretamente os caracteres,
evitando duplicação de informação e sobreposição de caracteres
Considerado isto, seguimos verificando o caráter Tipo de Quelícera para cada táxon de
interesse. Ao final deste processo, teremos um código de informação para cada táxon, que é
subsequentemente organizado em uma matriz de caracteres. Em cada linha da matriz temos um
táxon, e para cada caráter há um código (um número) do estado de caráter observado. Em uma
análise real de dados morfológicos são levantados muitos caracteres, que são analisados de forma
conjunta para testar as hipóteses. A organização dos caracteres em matrizes é uma ferramenta útil
para a análise, principalmente para análises computacionais de grande quantidade de informação.
No exemplo acima, o caráter “Tipo de Quelícera” possui apenas dois estados. Vamos chamá-
los de 0 e 1, mas tenha em mente que esse é só um código arbitrário que criamos. Caracteres com
apenas dois estados são chamados de binários, ao passo que os com mais de dois estados são
chamados de multiestado (e.g., 0, 1 e 2). Se nosso grupo de interesse fosse as aranhas (Arachnida,
Araneae), poderíamos codificar o caráter “Número de Olhos” da seguinte forma: (0) 8 olhos; (1) 6
olhos; (2) 4 olhos; (3) 2 olhos; (4) 0 olhos. A escolha dos códigos (0 a 4) nessa ordem é arbitrária e
não implica nenhuma premissa de ordenamento ou ordem evolutiva.

69
Caracteres podem ser divididos em ordenados (aditivos ou maximamente conectados) e não-
ordenados (não aditivos ou minimamente conectados). Nos caracteres ordenados, há uma ordem
fixa de transformação entre os estados, enquanto nos caracteres não-ordenados um dado estado de
caráter pode passar diretamente para qualquer outro. Caracteres binários são sempre ditos
ordenados, pois só há uma direção para a transformação, ou seja, de um estado diretamente para o
outro. Os caracteres multiestado podem ser ordenados ou não-ordenados, dependendo da relação
entre os estados de caráter.
Se o caráter multiestado “Olhos” fosse ordenado na ordem crescente, como aparece no
exemplo dado, a transformação do estado 0 para 3 deveria necessariamente incluir a passagem por 1
e 2. Sendo assim, haveria a adição de um custo para a transformação de estados não adjacentes (3
passos), razão pela qual caracteres ordenados são também chamados de aditivos. Se por outro lado
o caráter fosse não-ordenado, a passagem de 0 para 3 não requereria nenhum passo adicional (1
passo), sendo, portanto, não-aditiva. A escolha entre ordenar ou não os estados de um caráter deve
idealmente ser baseada em evidências, como a ordem de surgimento dos estados ao longo da
ontogenia ou as expressões sequenciais de um dado gene. Em muitos casos, no entanto, a escolha é
arbitrária.

Qual a melhor árvore: Critérios de Otimalidade

Antes de discutirmos os procedimentos metodológicos e computacionais empregados na


otimização de caracteres e na busca de árvores, discutiremos o que nos permite dizer que uma
hipótese filogenética é melhor do que outra, isto é, como podemos inferir (testar) qual árvore
melhor representa as relações evolutivas entre os organismos. É necessário um critério para
escolher, dentre todas as hipóteses concorrentes, aquela que melhor explica a variação observada
(estados de caracteres). Ou seja, necessitamos de um mecanismo objetivo para indicar “a melhor
árvore” (ou árvores) dentre as possíveis. A esse mecanismo damos o nome de critério de
otimalidade.
Um critério de otimalidade fornece um conjunto de regras usadas para escolher a(s)
melhor(es) hipótese(s) de relacionamentos evolutivos entre os táxons e é dado por O(h|e,b), onde h
é a hipótese, e, as evidências e b, os pressupostos (background knowledge). Em outras palavras, o
critério (O) é uma função que atribui um valor numérico à hipótese filogenética (h) dadas as
evidências (e) e pressupostos da análise (b). A busca da melhor árvore consiste em se minimizar (ou
maximizar) este valor. Abaixo, discutimos brevemente alguns dos critérios de otimalidade mais
comuns em Sistemática Filogenética.

70
Distância

Métodos baseados em distâncias tentam reconstruir as relações filogenéticas em função da


similaridade global entre os táxons. Sequências de atributos (mensurações de estruturas, número de
diferenças observadas em uma sequência de DNA, etc.) são comparadas par a par e a distância
global entre os táxons é estimada matematicamente. Os valores obtidos são divididos entre os ramos
e, em alguns métodos, corrigidos para que a distância observada seja compatível com a distância
calculada.
Esses métodos são caracterizados por algoritmos muito rápidos, princípios estatísticos e,
principalmente, por corrigirem matematicamente as incongruências observadas. No entanto,
também possuem atributos negativos, como a perda de informações e, principalmente, não serem
baseados nas transformações entre distintos estados de caracteres. Além disso, métodos de distância
em geral não são robustos e não raro recuperam uma árvore não ideal sob diversas condições
comuns (por exemplo, presença de dados faltantes ou heterogeneidade nas taxas evolutivas, etc.).
Dessa forma, atualmente não são tidos como métodos que se amparam no rigor científico para se
estimar filogenias (embora sejam úteis em outros contextos). Dentre os algoritmos mais comuns
podemos citar: neighbor-joining, UPGMA, minimum evolution.

Máxima Verossimilhança

A Máxima Verossimilhança (Maximum Likelihood, no inglês), assim como a Inferência


Bayesiana (ver a seguir), é um método estatístico paramétrico de inferência filogenética, ou seja, se
vale de modelos estocásticos sobre a otimização dos caracteres para calcular a probabilidade dos
dados observados em uma dada árvore. A Máxima Verossimilhança (MV) de uma hipótese H (neste
caso, de uma árvore T) é dada pela probabilidade p dos dados D calculada levando-se em conta uma
série de parâmetros, como taxas de evolução de caracteres, comprimentos de ramos, entre outros.
Sendo assim, a máxima verossimilhança escolhe uma árvore T que maximize p(D|T), ou seja, a
probabilidade (p) dos dados (D) dada uma árvore (T).
Os defensores desse critério apoiam-se nos argumentos de que a inclusão de modelos
conhecidos acerca da evolução de certas classes de evidências maximiza nosso conhecimento da
realidade e, por consequência, aumenta a chance de escolhermos a árvore que melhor represente a
diversificação das linhagens. Por exemplo, é possível incorporar informação de que determinados
mudanças entre nucleotídeos são mais frequentes, como as entre purinas ou entre pirimidinas. É um
método atrativo em função de suas particularidades estatísticas e talvez o mais utilizado pelos
pesquisadores atuais. Alguns pesquisadores, no entanto, argumentam que a Máxima
71
Verossimilhança sofre com alguns problemas de cunho teórico/filosófico. A Sistemática
Filogenética é uma ciência que lida com eventos históricos, únicos e singulares (como a transversão
de C para G em uma sequência de DNA). Sendo assim, uma abordagem estatística baseada em
frequências não seria adequada, pois atribui probabilidades a eventos históricos não replicáveis.
Uma de suas principais diferenças em relação à Inferência Bayesiana é o fato de evitar a
incorporação de priors, o que pode ser visto como vantagem ou desvantagem.

Inferência Bayesiana

Os métodos bayesianos são amplamente conhecidos na área da estatística desde o século


XVIII, quando o reverendo Thomas Bayes (c.a 1701-1761) propôs seu teorema. Em Sistemática
Filogenética, começou-se a pensar no uso da Inferência Bayesiana na década de 1990. Essa
abordagem fornece uma distribuição de árvores que permite a escolha das hipóteses (árvores) com
maior probabilidade posterior. A Inferência Bayesiana calcula a probabilidade de a árvore ser
verdadeira dado um conjunto de observações (dados), um modelo de evolução para essas
observações e as demais probabilidades associadas. Para tal, as distribuições desses parâmetros
iniciais ("priors") devem (ou deveriam) ser conhecidas.
A Inferência Bayesiana escolhe como ótima a árvore T com maior probabilidade posterior,
sendo p(T|D)=p(D|T).p(T)/p(D). Note que o primeiro termo do numerador [p(D|T)] é a
verossimilhança da hipótese! Logo, ambos os métodos compartilham algumas vantagens e
desvantagens. Os métodos bayesianos em Sistemática também enfrentam críticas associadas aos
priors, em relação à sua distribuição, forma, e ao grande impacto que priors inadequados geram no
resultado final das análises. Por outro lado, priors adequados permitem a inclusão de informações
relevantes, como fósseis para a datação de filogenias.

Parcimônia

Historicamente, os fundamentos da Parcimônia podem ser rastreados até o século XIV, nos
princípios lógicos da Navalha de Ockham. William of Ockham (1285-1347) foi um frade
franciscano inglês que pregava que “se em tudo mais forem idênticas as várias explicações de um
fenômeno, a mais simples é a melhor”. Sua elegância reside no fato de que, em sua simplicidade,
fornece hipóteses com o maior poder explicativo para as evidências observadas.
Em Sistemática Filogenética, a Parcimônia já foi advogada por reduzir hipóteses ad hoc e por
sua eficiência descritiva. Além disso, é o método mais rápido de inferência filogenética,
desconsiderando-se os de distância. Alguns pesquisadores entendem que sua justificativa
72
epistemológica como critério de otimalidade se escora no princípio da “antisuperfluidade” (não se
assuste, não tem nada a ver com teorias de fluidos; significa a redução de condições supérfluas ou
excedentes à análise). A grosso modo, isso significa dizer que a parcimônia sempre irá escolher a
hipótese H com o maior poder explicativo em função do menor conhecimento prévio necessário—
no caso da Sistemática Filogenética, a teoria de descendência com modificação proposta por
Charles Darwin (1809-1882) — sem recorrer a modelos auxiliares. Por outro lado, outros
pesquisadores sugerem que o critério da parcimônia pode ser também compreendido como um caso
especial dos modelos evolutivos utilizados nas análises de máxima verossimilhança, podendo ser
derivado de modelos simplistas ou extremamente complexos.
A hipótese (árvore) ótima é aquela que minimiza o número de transformações evolutivas
(passos) entre os estados de caráter. Para muitos pesquisadores a Parcimônia é tida como um
método simplista. Muitos a evitam, pois sua simplicidade impossibilita a incorporação de modelos
evolutivos e, por consequência, de conhecimento prévio acerca da distribuição de um dado
parâmetro. Por outro lado, sua simplicidade facilita o desenvolvimento de algoritmos de análise
mais eficientes, o que aumenta a velocidade das análises. De forma geral, pesquisadores que adotam
a parcimônia como critério de otimalidade estão mais interessados em suas propriedades
epistemológicas.

Qual é o melhor critério?

Não pretendemos aqui fornecer uma resposta definitiva sobre qual é o melhor ou o pior
critério de otimalidade. A adequação de cada critério frente aos mais diversos conjuntos de dados
existentes é alvo de intensas pesquisas e debates na literatura, os quais apenas pincelamos neste
capítulo. Em suma, todos os critérios de otimalidade devem ser interpretados como premissas
analíticas — i.e., sua escolha se dá antes de iniciar os procedimentos metodológicos — para se
estudar a evolução de caracteres e dos seres vivos. Todos estão sujeitos a falhas, erros e
incongruências e a escolha de um deles deve ser levada em conta como um dos passos mais
importantes no processo de descoberta científica em Sistemática Filogenética.

Otimização de caracteres

Otimização é o cálculo do custo total de uma árvore. A otimização irá definir o custo das
transformações de um caráter, dado o critério de otimalidade escolhido. O processo de otimização e
atribuição de um custo permite que diferentes hipóteses (árvores) sejam comparadas
quantitativamente.
73
Árvores filogenéticas são hipóteses compostas por um componente cladístico (a topologia per
se) e um patrístico (a soma dos custos das transformações de todos os caracteres). De forma
simplista, o componente patrístico consiste no custo da topologia e, em alguns casos, dos
comprimentos de ramo (calculado com a otimização) dado o critério de otimalidade escolhido. Em
Parcimônia o custo consiste na soma do número de transformações necessárias para explicar todos
os estados de caráter dos terminais. Já nos métodos estatísticos, é dado pela soma das
probabilidades dos eventos dado um modelo evolutivo, sendo que em Inferência Bayesiana se faz
necessária a incorporação de priors no cálculo. Logo, a árvore de menor custo em parcimônia, de
melhor verossimilhança em Máxima Verossimilhança e a distribuição de árvores de maior
probabilidade posterior em Inferência Bayesiana representam a hipótese ótima.
Tomando como exemplo o conjunto de dados da Figura 6.1, e supondo que nosso critério de
otimalidade seja a Parcimônia, o processo de otimização ocorre da seguinte forma. Para cada caráter
obtém-se o número mínimo de transformações necessário para obter os estados de caráter que
observamos nos terminais. No caso do caráter 1 (c1) na hipótese I, podemos postular apenas um
evento de tranformação (0 para 1), no ramo comum aos terminais C e D. Sendo assim, à direita do
evento temos os terminais com estado de caráter 1 (C e D), enquanto à esquerda do evento temos os
terminais com estado de caráter 0
(A e B). A otimização do caráter 1
atribui custo parcial 1 (uma
transformação) para a árvore.
Fazendo isso para os caracteres 2 e
3, a hipótese I soma um custo total
de 3. Já na hipótese II, a
otimizacao dos mesmos três
caracteres leva a uma árvore de
custo 5. Logo, seguindo o critério
da Parcimônia, a hipótese ótima
Figura 6.1. Otimização de três caracteres em duas das topologias
possíveis para quatro terminais. Números sobre cada terminal indicam os para explicar os eventos de
estados de caráter observados. Flechas indicam os eventos de transformações no conjunto de
transformação. A hipótese I explica a distribuição de estados de caráter
com menos eventos de transformação (3) do que a hipótese II (5). dados é a hipotese I.

Métodos de consenso

Em análises filogenéticas, frequentemente, mais de uma árvore igualmente ótima é


encontrada. Nestes casos, muitos pesquisadores optam por publicar apenas uma topologia que
74
represente o consenso de todas aquelas igualmente ótimas. É importante ressaltar que árvores de
consenso não são árvores “reais”, ou seja, não foram obtidas diretamente das análises; tratam-se
apenas de um resumo das melhores hipóteses encontradas.
Os métodos de consenso mais utilizados são: consenso estrito, consenso semiestrito, e
consenso de maioria.
Consenso estrito: A árvore de consenso irá conter apenas os grupos que aparecem em todas as
melhores árvores. Este método é o mais aceito e utilizado atualmente para Parcimônia.
Consenso semiestrito: Além de incluir todos os grupos do consenso estrito, a árvore de
consenso também inclui os grupos encontrados em uma topologia e que não sejam contraditos por
topologias alternativas.
Consenso de maioria: se um grupo está presente em 50% ou mais das melhores árvores, ele
entra na árvore de consenso. Esse tipo de consenso é comumente utilizado para sumarizar o
conjunto de árvores de uma distribuição resultante de análises Bayesianas.

Busca de árvores

Em análises filogenéticas, independentemente do critério de otimalidade escolhido, o


principal problema observado para encontrar a melhor árvore é que existe uma quantidade imensa
de topologias possíveis. O espaço de árvores—i.e., o número total de topologias existentes para um
conjunto de terminais—cresce substancialmente com o aumento do número de terminais analisados.
Para cinco terminais temos 15 topologias (não enraizadas) possíveis; para seis, 105; e para apenas
11 táxons há 34.459.425 topologias possíveis! Se imprimíssemos em papel todas as topologias para
21 terminais (3,03 x 1023 árvores) com o tamanho de 1 mm e as organizássemos em uma fila, ela
seria suficiente para ir e voltar da Terra ao Sol 1 bilhão de vezes (~150 milhões de quilômetros)!
Façamos uma analogia de um oceano com várias ilhas, onde cada “ilha” possui um conjunto de
árvores ótimas circundada por um “oceano” de árvores sub-ótimas. Estratégias de busca visam
navegar pelo oceano de árvores e encontrar a ilha que contém a melhor hipótese dado o seu critério.
Existem dois tipos de estratégias de busca: exatas e heurísticas. O algoritmo de buscas exatas
faz uma busca exaustiva analisando todas as possíveis árvores a fim de encontrar a melhor
topologia, sendo que o custo é calculado para todas as topologias existentes. Sabemos que o número
de árvores possíveis cresce exponencialmente a cada táxon adicionado. Por esse motivo, buscas
exatas só são possíveis em análises com poucos terminais (em geral, menos de 20). Exemplos de
algoritmos de buscas exatas são Implicit enumeration e Branch-and-bound.
Devido ao número astronômico de árvores possíveis em análises com muitos terminais,
algoritmos de buscas heurísticas foram implementados para torná-las computacionalmente
75
possíveis. Pelo fato de simplificar o processo de busca, esta estratégia não garante que a melhor
árvore seja encontrada (pois nem todas as combinações possíveis são consideradas). No entanto,
como veremos a seguir, existe uma série de algoritmos que permitem que olhemos para um
subconjunto do universo de árvores, focando nas melhores partes dele.
Toda busca heurística começa através de uma árvore inicial, denominada “Árvore de
Wagner”. O algoritmo de Wagner constrói a árvore adicionando os táxons um a um, calculando o
custo parcial ao otimizar os estados de caráter. Este algoritmo, porém, não explora todas as árvores
possíveis e continua a análise apenas pelo caminho imediato que apresente a melhor hipótese
segundo o seu critério. Em uma árvore inicial com 3 táxons, o algoritmo (1) adiciona o quarto táxon
em todas as posições possíveis (gerando três árvores, neste caso); (2) calcula o custo; (3) escolhe a
melhor árvore para continuar a análise, abandonando as outras árvores; (4) repete o procedimento,
acrescentando mais um terminal. Esse algoritmo segue a via da melhor árvore parcial e utiliza parte
dos dados para definir a rota de análise, só explorando um pequeno universo de possibilidades
dentro de todas as existentes. A chance dessa árvore de Wagner ser a melhor árvore é muito
pequena, mas ela é relativamente próxima da melhor árvore. Sendo assim, árvores de Wagner são
um bom ponto de início para que as estratégias de busca heurísticas comecem sua exploração. O
algoritmo RAS (Random Addition Sequence) é a estratégia mais utilizada para a construção da
árvore de Wagner, modificando a árvore inicial através da adição de um novo terminal
aleatoriamente em diversas interações. O aumento do número de interações de RAS aumenta o
número de possibilidades de encontrar árvores iniciais melhores
Uma primeira estratégia adicional é a permutação de ramos, que consiste em tomar as
melhores árvores geradas pelo algoritmo de Wagner e modificar a posição de alguns ramos,
avaliando a mudança no custo (ou seja, otimizando novamente os caracteres). Se há uma
diminuição do custo com a modificação de algum ramo, estão essa árvore é mantida e usada como o
novo ponto de partida. O objetivo desse procedimento é gerar uma perturbação nas árvores que
permita “navegar” pelo espaço de árvores possíveis. Uma implementação de rearranjo muito
utilizada é o Branch-Swapping. As três rotinas de Branch-Swapping mais comuns são (1) NNI, (2)
SPR, (3) TBR (Figura 6.2). Essencialmente, estas diferem apenas na forma como “bagunçamos” os
ramos da nossa árvore inicial.
(1) NNI (do inglês, Nearest Neighbor Interchange) é a mudança de duas subárvores (ramos)
vizinhas em um ramo interno de uma árvore. No exemplo da Figura 6.2, primeiro os ramos D e E
são trocados e, em seguida, juntou os ramos D e E. Os dois rearranjos distintos obtidos são
avaliados com relação ao seu custo. Esse procedimento gera um número relativamente pequeno de
perturbações.
(2) SPR (do inglês, Subtree Pruning and Regrafting) envolve a remoção de possíveis
76
subárvores de uma árvore principal e a reinserção delas em todas as posições possíveis da árvore
principal. SPR permite que apenas o ramo que foi cortado da subárvore (“raiz”) seja reinserido na
árvore principal.
(3) TBR (do inglês, Tree Bisection and Reconnection), utiliza o mesmo procedimento do
SPR, entretanto, expande ainda mais o número de rearranjos possíveis, pois permite que qualquer
ponta da subárvore seja reconectada em qualquer ponto da árvore principal (Figura 6.2). Árvores
geradas por NNI são um subgrupo das geradas por SPR, que, por sua vez, são um subgrupo
daquelas geradas por TBR.

Figura 6.2. Diferenças entre os rearranjos de topologias: (A) NNI - Nearest Neighbor Interchange, (B) SPR - Subtree
Pruning and Regrafting e (C) TBR - Tree Bisection and Reconnection. Adaptado de Wheeler, 2012.

Técnicas avançadas de buscas

A partir do final da década de 90, foram publicadas estratégias mais avançadas para análise de
grandes bancos de dados. Retomando a analogia das ilhas citada anteriormente, uma das grandes
vantagens destas técnicas é que elas diminuem as chances de a análise ficar presa em uma ilha
subótima, permitindo que esta navegue pelo oceano de árvores subótimas e chegue em uma ilha
com árvores de menos custo. Algumas dessas técnicas são:

77
Ratchet
Método de perturbação que aumenta drasticamente a velocidade e a efetividade das buscas
pela melhor árvore. É uma técnica que alterna um banco de dados perturbado (pesos dos caracteres
alterados) com o banco de dados original. Múltiplos ciclos de repesagem e alternação de ramos
permitem a identificação de mais soluções ótimas. A ideia é que caracteres repesados tem um
cenário de ótimos distorcido comparado aos dados originais, e buscar árvores nesse novo cenário
amplia as chances na busca pela melhor árvore. Ratchet é atualmente o componente padrão em
busca de árvores filogenéticas.

Tree-Fusing
Consiste na permutação de subgrupos do mesmo táxon entre árvores. Se uma mudança resulta
em uma árvore mais curta, então essa árvore é salva. Essa estratégia é construída em torno da ideia
de que subgrupos formados podem ser ótimos, mas que as relações entre eles e com outros
subgrupos podem não ser tão ótimas assim. Atualmente, é um dos algoritmos mais eficazes em
Sistemática Filogenética.

Sectorial Search
Sugere que o isolamento de certos clados e a análise separada destes pode aumentar a
resolução do subclado isolado (“Divide and Conquer”). O fato de poucos táxons serem envolvidos
aumenta a eficiência da análise, o que diminui o tempo computacional para escapar de uma região
subótima. Se o resultado aumenta o custo da árvore, a análise move para outro subclado (outro
setor).

Enraizamento e Polarização

O resultado de uma
análise filogenética é a melhor
solução de adjacência de
terminais que contempla o
critério de otimalidade
(Parcimônia, Verossimilhança
ou Bayesiana) à luz dos
Figura 6.3. Exemplo de um diagrama com 3 terminais (A) não enraizado e (B)
eventos de transformação enraizado no ramo do terminal ‘A’ (em vermelho pontilhado). Setas indicam os
três pontos de enraizamento possíveis. No diagrama não enraizado (A) NÃO é
(evidências). Esse resultado, possível dizer quem é o grupo irmão de cada terminal, enquanto no enraizado
encontrado após a extensa (B) os terminais ‘B’ e ‘C’ são irmãos entre si e esse clado é grupo irmão de ‘A’.

78
busca no espaço de árvores, é um diagrama não-enraizado (Figura 6.3A) que informa apenas os
eventos de transformação e as relações de adjacência entre terminais, mas que carece de um vetor
temporal, uma direção dos eventos. A raiz fornece a informação temporal que dá sentido biológico
ao diagrama dicotômico, o que é essencial para a Sistemática Filogenética, a qual busca explicar
como as linhagens se diversificaram ao longo do tempo. A raiz também determina a polarização dos
caracteres.
Polarizar um caráter é determinar a direção das transformações entre os estados de caráter que
o compõe. Antes da consolidação do paradigma cladístico, a polarização dos caracteres era
comumente feita antes da análise. A justificativa para um cenário ou outro dificilmente era
impessoal, tendo sido muitas vezes baseada na opinião ou crença dos pesquisadores. No contexto
cladístico, a polarização é uma etapa posterior, consequência do processo de enraizamento de
diagramas.
Diagramas enraizados possuem algumas propriedades e alguns termos associados. Na Figura 6.3A
temos apenas três pontos de enraizamento possíveis, assinalados pelas flechas. Observe que a raiz
funciona como um terminal adicional e que, por isso, o número de diagramas enraizados (3)
corresponde ao número de diagramas não enraizados de uma análise com 3+1 terminais (Figura
6.3B, mostrando uma das 3 árvores enraizadas possíveis). Com a raiz, os diagramas possuem um
vetor temporal. Desse modo, cria-se uma ordem dos eventos de cladogênese, que é diferente
dependendo do ponto de enraizamento (Figura 6.4). Se com o enraizamento mudamos a ordem dos
eventos, a direção das transformações também pode ser alterada, ou seja, um mesmo estado de
caráter pode ser plesiomórfico ou apomórfico em diferentes séries de transformação não
simultâneas.

Figura 6.4. (A) Diagrama não enraizado, com dois eventos de cladogênese (C1, C2). (B) Diagramas
enraizados em ‘A’ (vermelho) e ‘C’ (azul). Repare que a ordem dos eventos de cladogênese é alterada.
79
A forma mais utilizada hoje em dia para determinar o posicionamento da raiz, bem como a
polarização dos caracteres, é a inclusão dos grupos externos. O grupo externo pode ser composto
por um ou mais táxons que estão fora do nosso grupo de interesse, o chamado grupo interno. Esse
método se baseia no princípio de que as similaridades observadas entre os grupos interno e externo
são indicadores de plesiomorfia (podendo ser sinapomorfias em níveis mais abrangentes). Se, por
exemplo, observarmos quelíceras queladas (“com pinça”, como nos escorpiões) e subqueladas
(“sem pinça”, como nas aranhas) no nosso grupo interno (Arachnida) e observarmos apenas um
estado de caráter no grupo externo (ex: quelícera quelada em Xiphosura), é mais parcimonioso
assumir que esse estado compartilhado é o plesiomórfico.
Por esse princípio, ao menos um terminal de grupo externo é sempre incluído na análise e a
raiz é atribuída a esse ramo. Note que a escolha do grupo externo tem uma dupla função. A primeira
delas é a de testar a monofiletismo do grupo interno. Se nossa delimitação do grupo de interesse
como sendo monofilético estiver incorreta, um ou mais terminais do grupo externo poderão ser
recuperados junto aos terminais do grupo interno, dessa forma refutando a hipótese de
monofiletismo. A segunda função é a de testar as hipóteses de homologia entre os caracteres:
dependendo da distribuição dos estados de caráter no grupo externo, podemos observar que um
caráter evolui de forma independente em duas ou mais linhagens (pense no olho dos vertebrados e
dos cefalópodes), isto é, que são homoplásticos. É importante notar aqui que, se escolhermos
somente um único terminal como grupo externo, obrigatoriamente estaremos assumindo o
monofiletismo do grupo interno, e essa não poderá ser testada.
O grupo externo não necessariamente precisa ser o grupo irmão do grupo interno, mas deve
simplesmente não fazer parte dele (conhecimento prévio). O importante é selecionar grupos que
compartilhem ao menos alguns dos caracteres observados no grupo interno, motivo pelo qual o
grupo externo não deve ser muito distante do interno (não enraíze a filogenia de Arachnida com
uma samambaia!). Entretanto, não há uma regra absoluta para essa escolha, sendo apenas desejável
incluir o maior número possível de táxons proximamente relacionados e bem resolvidos.

Suporte

Suporte já foi definido como “o grau em que as evidências refutam hipóteses competidoras”.
Sob essa perspectiva, a hipótese que melhor explica os dados (evidência), i.e., a menos refutada
pelas evidências, é a de maior suporte – note que essa é a definição da otimalidade de uma hipótese.
No entanto, muitas vezes os pesquisadores querem saber quão mais suportada a melhor hipótese é
que as outras hipóteses, seja para atrelar uma espécie de grau de confiabilidade a uma hipótese ou
para identificar os aspectos mais fracos como focos para futuros estudos.
80
Existe uma série de procedimentos que podem ser adotados nessa etapa, mas iremos focar
nossa discussão nos mais utilizados. Duas grandes classes de métodos são amplamente utilizadas
em Sistemática Filogenética. A primeira delas diz respeito aos métodos de reamostragem, dentre os
quais bootstrap e jackknife são os mais conhecidos e também os mais utilizados. A premissa desses
métodos é reamostrar os dados originais aleatoriamente de forma a gerar matrizes de igual ou
menor tamanho que a matriz original e buscar as árvores para cada uma delas. Esse procedimento é
realizado por um número grande de vezes (definido pelo pesquisador) e a frequência de cada clado
no conjunto de árvores é calculada e interpretada como o valor de suporte de cada clado.
Por exemplo, suponha que para um conjunto de dados qualquer árvore mais parcimoniosa
tenha dez passos. Em seguida, realizamos uma análise de jackknife com dez interações. Em nossos
resultados observamos que o clado A aparece em sete das dez árvores. Ou seja, o suporte de
jackknife para o clado A é de 0.70 ou 70%. Já o clado B aparece em somente duas das dez árvores,
logo seu valor de suporte é de apenas 0.20 ou 20%. As vezes, os autores utilizam os valores de
suporte para “aceitar” ou não alguns clados, colapsando nós que possuem um valor baixo de
bootstrap ou jackknife. Esse procedimento é problemático e pouco usado, uma vez que rejeita
clados sem que haja evidências para isso.
Também existe o suporte baseado em otimalidade, como o de Goodman-Bremer (GB). O
índice de GB está baseado na comparação entre a(s) hipótese(s) ótima(s) e as árvores sub-ótimas,
avaliando o quão suportado um dado clado é em relação as evidências. O cálculo do suporte de GB
inicia-se com a busca da melhor (ótima) árvore e registrando-se seu custo. Em seguida, observa-se
um conjunto de árvores que contém ou não cada um dos clados que compõem a hipótese ótima e
registra-se seu custo – existem alguns métodos para se buscar heuristicamente as árvores ótimas
sem um clado de interesse. Em seguida, avalia-se em quais cenários cada clado se mantém,
subtraindo-se o custo da árvore sub-ótima da árvore ótima. Note que os valores de GB sempre irão
representar o limite superior do intervalo de custos pois, via de regra, existe a possibilidade de se
encontrar uma árvore ótima mais curta (em geral, o número de terminais envolvidos nas análises
impede a observação de todas as árvores existentes, e a busca pela hipótese ótima é heurística – ver
seção Busca de Árvores).
Suponha que ao realizar uma busca de árvore você encontre uma árvore com o custo de dez
passos (a árvore ótima), que vamos chamar de S. Observando-se o conjunto de árvores sub-ótimas
vemos que a melhor árvore sem o clado A tem custo de 15 passos, que chamaremos S’. O cálculo
do suporte de Goodman-Bremer é dado pela diferença entre os custos das duas árvores, S`– S, ou
seja, 15 – 10 = 5. Mesmo se encontramos árvores de mais passos que contem o clado A, o valor de
GB continua sendo cinco, pois o que importa é a melhor árvore sem o clado em questão, não a pior

81
árvore com esse clado. Agora suponha que o clado B está ausente em ao menos uma árvore com
somente 11 passos. Seus valores de Bremer seria 11 – 10 = 1.
Os valores de Bremer nos dão uma ideia da quantidade de evidência que seria necessário
para conseguir refutar a hipótese de monofiletismo de um dado grupo. No exemplo acima, seria
necessário obter evidência para alterar o custo da melhor árvore em pelo menos cinco passos para
refutar o clado A, mas apenas um passo para refutar o clado C.
O uso de suporte, e qual medida de suporte usar, é apenas mais uma das etapas de decisões
que devem ser tomadas pelos pesquisadores. Mais complicado ainda é decidir o que fazer com os
valores de suporte obtidos. Por exemplo, suponha que um clado X possa representar uma nova
família, porém, apresenta “baixos” valores de suporte (por exemplo bootstrap de 25% ou Bremer de
1). O que você faria? Daria um nome para esta família? Alguns pesquisadores consideram que a
hipótese mais suportada (i.e., a hipótese ótima) deve ser preferida e usada, independente de quão
mais suportada esta for do que as outras hipóteses, pois cientificamente é a melhor explicação das
evidências. Outros pesquisadores alegam que clados com suportes baixos não são confiáveis e não
devem ser reconhecidos formalmente. A decisão final deve ser tomada de forma consciente,
objetiva e embasada por bons argumentos.
Neste tópico cobrimos apenas uma pequena parcela dos diferentes métodos de suporte ou de
exploração de dados. É interessante que o leitor esteja familiarizado com os principais deles e que
se dedique a conhecer um pouco mais os outros, de modo que decisões futuras possam ser tomadas
de forma objetiva.

Conclusões

Como visto neste capítulo, a construção de árvores filogenéticas não é um procedimento


trivial. Na realidade, engloba uma série de escolhas e etapas que devem ser criticamente avaliadas,
incluindo a escolha do grupo de interesse, dos grupos externos adequados, do critério de
otimalidade e até mesmo dos algoritmos a serem empregados nas análises.
Todas essas decisões devem ser tomadas com o foco de um cientista: visando obter hipóteses
que melhor expliquem as evidências observadas de forma logicamente consistente. O pesquisador
deve ter em mente esses pensamentos antes de proceder qualquer análise filogenética. Inferir a
história evolutiva da vida na Terra não se resume a apertar botões em um programa e observar a
árvore resultante; ao contrário, significa proceder da forma mais coerente e ética possível, com o
cuidado, o empenho e a dedicação que os filogeneticistas devem ter.

82
AGRADECIMENTOS

Os autores agradecem os comentários e sugestões de MSc. Bruno Souza de Medeiros, MSc.


Jimmy Cabra-García, Dr. Boris L. Blotto e Prof. Dr. Victor G. Dill Orrico, que contribuíram para o
conteúdo informativo, precisão e coerência do texto. E ao Prof. Dr. Taran Grant pela revisão da
seção sobre Suporte.

BIBLIOGRAFIA

Amorim, D. S. 2002. Fundamentos de Sistemática Filogenética. Holos Editora. Ribeirão Preto.


156p.
Bryant, H. N. 2001. Character polarity and the rooting of cladograms. In Wagner, G. P. (Ed.) The
Character Concept in Evolutionary Biology. Academic Press, 319–337.
Farris, J. S. 1983. The logical basis of phylogenetic analysis. In Sober, E. D. (Ed.) Conceptual
Issues in Evolutionary Biology. MIT Press, Cambridge. 640p.
Giribet, G. 2007. Efficient tree searches with available algorithms. Evolutionary Bioinformatics, 3:
341–356.
Grant, T. & A. G. Kluge. 2003. Data exploration in phylogenetic inference: scientific, heuristic, or
neither. Cladistics, 19: 379–418.
Grant, T. & A. G. Kluge. 2004. Transformation series as an ideographic character concept.
Cladistics, 20: 23–31.
Kluge, A. G. & T. Grant. 2006. From conviction to anti-superfluity: old and new justifications of
parsimony in phylogenetic inference. Cladistics, 22: 276–288.
Nixon, K. C. & J. M. Carpenter. 1993. On outgroups. Cladistics, 9: 413–426.
Sereno, P. 2007. Logical basis for morphological characters in phylogenetics. Cladistics, 23: 565–
587.
Wheeler W. D. 2012. Systematics: A Course of Lectures. Wiley-Blackwell, Oxford. 426p.
Wiley, E. O. & B. S. Lieberman. 2011. Phylogenetics. Wiley-Blackwell, Oxford. 406p.
Yang, Z. & B. Rannala. 2012. Molecular phylogenetics: principles and practice. Nature Reviews
Genetics, 13: 303–14.

83

View publication stats

Você também pode gostar