Escolar Documentos
Profissional Documentos
Cultura Documentos
net/publication/322701351
CITATIONS READS
0 8,214
3 authors:
Rachel Montesinos
University of São Paulo
15 PUBLICATIONS 96 CITATIONS
SEE PROFILE
All content following this page was uploaded by Guilherme Gainett on 25 January 2018.
Este capítulo busca conduzir o leitor pelas etapas que se sucedem desde a observação até a
obtenção da melhor hipótese filogenética. O foco será em como informações morfológicas são
utilizadas para inferir filogenias, porém os princípios são igualmente aplicáveis a outros tipos de
dados (ver Capítulo 7 para tratamento de dados moleculares). Várias das explicações estão
amparadas no critério de Parcimônia, porém as etapas e conceitos são igualmente parte das
análises com outros critérios de otimalidade (e.g., Máxima Verossimilhança e Análise Bayesiana).
Antes de começar, é importante nos perguntarmos onde queremos chegar ou, em outros termos,
qual é o objetivo da Sistemática Filogenética?
67
valores às árvores dado um critério, 4) como se busca a melhor árvore; 5) como é dado sentido
temporal ao diagrama; 6) qual a confiança de um determinado clado.
69
Caracteres podem ser divididos em ordenados (aditivos ou maximamente conectados) e não-
ordenados (não aditivos ou minimamente conectados). Nos caracteres ordenados, há uma ordem
fixa de transformação entre os estados, enquanto nos caracteres não-ordenados um dado estado de
caráter pode passar diretamente para qualquer outro. Caracteres binários são sempre ditos
ordenados, pois só há uma direção para a transformação, ou seja, de um estado diretamente para o
outro. Os caracteres multiestado podem ser ordenados ou não-ordenados, dependendo da relação
entre os estados de caráter.
Se o caráter multiestado “Olhos” fosse ordenado na ordem crescente, como aparece no
exemplo dado, a transformação do estado 0 para 3 deveria necessariamente incluir a passagem por 1
e 2. Sendo assim, haveria a adição de um custo para a transformação de estados não adjacentes (3
passos), razão pela qual caracteres ordenados são também chamados de aditivos. Se por outro lado
o caráter fosse não-ordenado, a passagem de 0 para 3 não requereria nenhum passo adicional (1
passo), sendo, portanto, não-aditiva. A escolha entre ordenar ou não os estados de um caráter deve
idealmente ser baseada em evidências, como a ordem de surgimento dos estados ao longo da
ontogenia ou as expressões sequenciais de um dado gene. Em muitos casos, no entanto, a escolha é
arbitrária.
70
Distância
Máxima Verossimilhança
Inferência Bayesiana
Parcimônia
Historicamente, os fundamentos da Parcimônia podem ser rastreados até o século XIV, nos
princípios lógicos da Navalha de Ockham. William of Ockham (1285-1347) foi um frade
franciscano inglês que pregava que “se em tudo mais forem idênticas as várias explicações de um
fenômeno, a mais simples é a melhor”. Sua elegância reside no fato de que, em sua simplicidade,
fornece hipóteses com o maior poder explicativo para as evidências observadas.
Em Sistemática Filogenética, a Parcimônia já foi advogada por reduzir hipóteses ad hoc e por
sua eficiência descritiva. Além disso, é o método mais rápido de inferência filogenética,
desconsiderando-se os de distância. Alguns pesquisadores entendem que sua justificativa
72
epistemológica como critério de otimalidade se escora no princípio da “antisuperfluidade” (não se
assuste, não tem nada a ver com teorias de fluidos; significa a redução de condições supérfluas ou
excedentes à análise). A grosso modo, isso significa dizer que a parcimônia sempre irá escolher a
hipótese H com o maior poder explicativo em função do menor conhecimento prévio necessário—
no caso da Sistemática Filogenética, a teoria de descendência com modificação proposta por
Charles Darwin (1809-1882) — sem recorrer a modelos auxiliares. Por outro lado, outros
pesquisadores sugerem que o critério da parcimônia pode ser também compreendido como um caso
especial dos modelos evolutivos utilizados nas análises de máxima verossimilhança, podendo ser
derivado de modelos simplistas ou extremamente complexos.
A hipótese (árvore) ótima é aquela que minimiza o número de transformações evolutivas
(passos) entre os estados de caráter. Para muitos pesquisadores a Parcimônia é tida como um
método simplista. Muitos a evitam, pois sua simplicidade impossibilita a incorporação de modelos
evolutivos e, por consequência, de conhecimento prévio acerca da distribuição de um dado
parâmetro. Por outro lado, sua simplicidade facilita o desenvolvimento de algoritmos de análise
mais eficientes, o que aumenta a velocidade das análises. De forma geral, pesquisadores que adotam
a parcimônia como critério de otimalidade estão mais interessados em suas propriedades
epistemológicas.
Não pretendemos aqui fornecer uma resposta definitiva sobre qual é o melhor ou o pior
critério de otimalidade. A adequação de cada critério frente aos mais diversos conjuntos de dados
existentes é alvo de intensas pesquisas e debates na literatura, os quais apenas pincelamos neste
capítulo. Em suma, todos os critérios de otimalidade devem ser interpretados como premissas
analíticas — i.e., sua escolha se dá antes de iniciar os procedimentos metodológicos — para se
estudar a evolução de caracteres e dos seres vivos. Todos estão sujeitos a falhas, erros e
incongruências e a escolha de um deles deve ser levada em conta como um dos passos mais
importantes no processo de descoberta científica em Sistemática Filogenética.
Otimização de caracteres
Otimização é o cálculo do custo total de uma árvore. A otimização irá definir o custo das
transformações de um caráter, dado o critério de otimalidade escolhido. O processo de otimização e
atribuição de um custo permite que diferentes hipóteses (árvores) sejam comparadas
quantitativamente.
73
Árvores filogenéticas são hipóteses compostas por um componente cladístico (a topologia per
se) e um patrístico (a soma dos custos das transformações de todos os caracteres). De forma
simplista, o componente patrístico consiste no custo da topologia e, em alguns casos, dos
comprimentos de ramo (calculado com a otimização) dado o critério de otimalidade escolhido. Em
Parcimônia o custo consiste na soma do número de transformações necessárias para explicar todos
os estados de caráter dos terminais. Já nos métodos estatísticos, é dado pela soma das
probabilidades dos eventos dado um modelo evolutivo, sendo que em Inferência Bayesiana se faz
necessária a incorporação de priors no cálculo. Logo, a árvore de menor custo em parcimônia, de
melhor verossimilhança em Máxima Verossimilhança e a distribuição de árvores de maior
probabilidade posterior em Inferência Bayesiana representam a hipótese ótima.
Tomando como exemplo o conjunto de dados da Figura 6.1, e supondo que nosso critério de
otimalidade seja a Parcimônia, o processo de otimização ocorre da seguinte forma. Para cada caráter
obtém-se o número mínimo de transformações necessário para obter os estados de caráter que
observamos nos terminais. No caso do caráter 1 (c1) na hipótese I, podemos postular apenas um
evento de tranformação (0 para 1), no ramo comum aos terminais C e D. Sendo assim, à direita do
evento temos os terminais com estado de caráter 1 (C e D), enquanto à esquerda do evento temos os
terminais com estado de caráter 0
(A e B). A otimização do caráter 1
atribui custo parcial 1 (uma
transformação) para a árvore.
Fazendo isso para os caracteres 2 e
3, a hipótese I soma um custo total
de 3. Já na hipótese II, a
otimizacao dos mesmos três
caracteres leva a uma árvore de
custo 5. Logo, seguindo o critério
da Parcimônia, a hipótese ótima
Figura 6.1. Otimização de três caracteres em duas das topologias
possíveis para quatro terminais. Números sobre cada terminal indicam os para explicar os eventos de
estados de caráter observados. Flechas indicam os eventos de transformações no conjunto de
transformação. A hipótese I explica a distribuição de estados de caráter
com menos eventos de transformação (3) do que a hipótese II (5). dados é a hipotese I.
Métodos de consenso
Busca de árvores
Figura 6.2. Diferenças entre os rearranjos de topologias: (A) NNI - Nearest Neighbor Interchange, (B) SPR - Subtree
Pruning and Regrafting e (C) TBR - Tree Bisection and Reconnection. Adaptado de Wheeler, 2012.
A partir do final da década de 90, foram publicadas estratégias mais avançadas para análise de
grandes bancos de dados. Retomando a analogia das ilhas citada anteriormente, uma das grandes
vantagens destas técnicas é que elas diminuem as chances de a análise ficar presa em uma ilha
subótima, permitindo que esta navegue pelo oceano de árvores subótimas e chegue em uma ilha
com árvores de menos custo. Algumas dessas técnicas são:
77
Ratchet
Método de perturbação que aumenta drasticamente a velocidade e a efetividade das buscas
pela melhor árvore. É uma técnica que alterna um banco de dados perturbado (pesos dos caracteres
alterados) com o banco de dados original. Múltiplos ciclos de repesagem e alternação de ramos
permitem a identificação de mais soluções ótimas. A ideia é que caracteres repesados tem um
cenário de ótimos distorcido comparado aos dados originais, e buscar árvores nesse novo cenário
amplia as chances na busca pela melhor árvore. Ratchet é atualmente o componente padrão em
busca de árvores filogenéticas.
Tree-Fusing
Consiste na permutação de subgrupos do mesmo táxon entre árvores. Se uma mudança resulta
em uma árvore mais curta, então essa árvore é salva. Essa estratégia é construída em torno da ideia
de que subgrupos formados podem ser ótimos, mas que as relações entre eles e com outros
subgrupos podem não ser tão ótimas assim. Atualmente, é um dos algoritmos mais eficazes em
Sistemática Filogenética.
Sectorial Search
Sugere que o isolamento de certos clados e a análise separada destes pode aumentar a
resolução do subclado isolado (“Divide and Conquer”). O fato de poucos táxons serem envolvidos
aumenta a eficiência da análise, o que diminui o tempo computacional para escapar de uma região
subótima. Se o resultado aumenta o custo da árvore, a análise move para outro subclado (outro
setor).
Enraizamento e Polarização
O resultado de uma
análise filogenética é a melhor
solução de adjacência de
terminais que contempla o
critério de otimalidade
(Parcimônia, Verossimilhança
ou Bayesiana) à luz dos
Figura 6.3. Exemplo de um diagrama com 3 terminais (A) não enraizado e (B)
eventos de transformação enraizado no ramo do terminal ‘A’ (em vermelho pontilhado). Setas indicam os
três pontos de enraizamento possíveis. No diagrama não enraizado (A) NÃO é
(evidências). Esse resultado, possível dizer quem é o grupo irmão de cada terminal, enquanto no enraizado
encontrado após a extensa (B) os terminais ‘B’ e ‘C’ são irmãos entre si e esse clado é grupo irmão de ‘A’.
78
busca no espaço de árvores, é um diagrama não-enraizado (Figura 6.3A) que informa apenas os
eventos de transformação e as relações de adjacência entre terminais, mas que carece de um vetor
temporal, uma direção dos eventos. A raiz fornece a informação temporal que dá sentido biológico
ao diagrama dicotômico, o que é essencial para a Sistemática Filogenética, a qual busca explicar
como as linhagens se diversificaram ao longo do tempo. A raiz também determina a polarização dos
caracteres.
Polarizar um caráter é determinar a direção das transformações entre os estados de caráter que
o compõe. Antes da consolidação do paradigma cladístico, a polarização dos caracteres era
comumente feita antes da análise. A justificativa para um cenário ou outro dificilmente era
impessoal, tendo sido muitas vezes baseada na opinião ou crença dos pesquisadores. No contexto
cladístico, a polarização é uma etapa posterior, consequência do processo de enraizamento de
diagramas.
Diagramas enraizados possuem algumas propriedades e alguns termos associados. Na Figura 6.3A
temos apenas três pontos de enraizamento possíveis, assinalados pelas flechas. Observe que a raiz
funciona como um terminal adicional e que, por isso, o número de diagramas enraizados (3)
corresponde ao número de diagramas não enraizados de uma análise com 3+1 terminais (Figura
6.3B, mostrando uma das 3 árvores enraizadas possíveis). Com a raiz, os diagramas possuem um
vetor temporal. Desse modo, cria-se uma ordem dos eventos de cladogênese, que é diferente
dependendo do ponto de enraizamento (Figura 6.4). Se com o enraizamento mudamos a ordem dos
eventos, a direção das transformações também pode ser alterada, ou seja, um mesmo estado de
caráter pode ser plesiomórfico ou apomórfico em diferentes séries de transformação não
simultâneas.
Figura 6.4. (A) Diagrama não enraizado, com dois eventos de cladogênese (C1, C2). (B) Diagramas
enraizados em ‘A’ (vermelho) e ‘C’ (azul). Repare que a ordem dos eventos de cladogênese é alterada.
79
A forma mais utilizada hoje em dia para determinar o posicionamento da raiz, bem como a
polarização dos caracteres, é a inclusão dos grupos externos. O grupo externo pode ser composto
por um ou mais táxons que estão fora do nosso grupo de interesse, o chamado grupo interno. Esse
método se baseia no princípio de que as similaridades observadas entre os grupos interno e externo
são indicadores de plesiomorfia (podendo ser sinapomorfias em níveis mais abrangentes). Se, por
exemplo, observarmos quelíceras queladas (“com pinça”, como nos escorpiões) e subqueladas
(“sem pinça”, como nas aranhas) no nosso grupo interno (Arachnida) e observarmos apenas um
estado de caráter no grupo externo (ex: quelícera quelada em Xiphosura), é mais parcimonioso
assumir que esse estado compartilhado é o plesiomórfico.
Por esse princípio, ao menos um terminal de grupo externo é sempre incluído na análise e a
raiz é atribuída a esse ramo. Note que a escolha do grupo externo tem uma dupla função. A primeira
delas é a de testar a monofiletismo do grupo interno. Se nossa delimitação do grupo de interesse
como sendo monofilético estiver incorreta, um ou mais terminais do grupo externo poderão ser
recuperados junto aos terminais do grupo interno, dessa forma refutando a hipótese de
monofiletismo. A segunda função é a de testar as hipóteses de homologia entre os caracteres:
dependendo da distribuição dos estados de caráter no grupo externo, podemos observar que um
caráter evolui de forma independente em duas ou mais linhagens (pense no olho dos vertebrados e
dos cefalópodes), isto é, que são homoplásticos. É importante notar aqui que, se escolhermos
somente um único terminal como grupo externo, obrigatoriamente estaremos assumindo o
monofiletismo do grupo interno, e essa não poderá ser testada.
O grupo externo não necessariamente precisa ser o grupo irmão do grupo interno, mas deve
simplesmente não fazer parte dele (conhecimento prévio). O importante é selecionar grupos que
compartilhem ao menos alguns dos caracteres observados no grupo interno, motivo pelo qual o
grupo externo não deve ser muito distante do interno (não enraíze a filogenia de Arachnida com
uma samambaia!). Entretanto, não há uma regra absoluta para essa escolha, sendo apenas desejável
incluir o maior número possível de táxons proximamente relacionados e bem resolvidos.
Suporte
Suporte já foi definido como “o grau em que as evidências refutam hipóteses competidoras”.
Sob essa perspectiva, a hipótese que melhor explica os dados (evidência), i.e., a menos refutada
pelas evidências, é a de maior suporte – note que essa é a definição da otimalidade de uma hipótese.
No entanto, muitas vezes os pesquisadores querem saber quão mais suportada a melhor hipótese é
que as outras hipóteses, seja para atrelar uma espécie de grau de confiabilidade a uma hipótese ou
para identificar os aspectos mais fracos como focos para futuros estudos.
80
Existe uma série de procedimentos que podem ser adotados nessa etapa, mas iremos focar
nossa discussão nos mais utilizados. Duas grandes classes de métodos são amplamente utilizadas
em Sistemática Filogenética. A primeira delas diz respeito aos métodos de reamostragem, dentre os
quais bootstrap e jackknife são os mais conhecidos e também os mais utilizados. A premissa desses
métodos é reamostrar os dados originais aleatoriamente de forma a gerar matrizes de igual ou
menor tamanho que a matriz original e buscar as árvores para cada uma delas. Esse procedimento é
realizado por um número grande de vezes (definido pelo pesquisador) e a frequência de cada clado
no conjunto de árvores é calculada e interpretada como o valor de suporte de cada clado.
Por exemplo, suponha que para um conjunto de dados qualquer árvore mais parcimoniosa
tenha dez passos. Em seguida, realizamos uma análise de jackknife com dez interações. Em nossos
resultados observamos que o clado A aparece em sete das dez árvores. Ou seja, o suporte de
jackknife para o clado A é de 0.70 ou 70%. Já o clado B aparece em somente duas das dez árvores,
logo seu valor de suporte é de apenas 0.20 ou 20%. As vezes, os autores utilizam os valores de
suporte para “aceitar” ou não alguns clados, colapsando nós que possuem um valor baixo de
bootstrap ou jackknife. Esse procedimento é problemático e pouco usado, uma vez que rejeita
clados sem que haja evidências para isso.
Também existe o suporte baseado em otimalidade, como o de Goodman-Bremer (GB). O
índice de GB está baseado na comparação entre a(s) hipótese(s) ótima(s) e as árvores sub-ótimas,
avaliando o quão suportado um dado clado é em relação as evidências. O cálculo do suporte de GB
inicia-se com a busca da melhor (ótima) árvore e registrando-se seu custo. Em seguida, observa-se
um conjunto de árvores que contém ou não cada um dos clados que compõem a hipótese ótima e
registra-se seu custo – existem alguns métodos para se buscar heuristicamente as árvores ótimas
sem um clado de interesse. Em seguida, avalia-se em quais cenários cada clado se mantém,
subtraindo-se o custo da árvore sub-ótima da árvore ótima. Note que os valores de GB sempre irão
representar o limite superior do intervalo de custos pois, via de regra, existe a possibilidade de se
encontrar uma árvore ótima mais curta (em geral, o número de terminais envolvidos nas análises
impede a observação de todas as árvores existentes, e a busca pela hipótese ótima é heurística – ver
seção Busca de Árvores).
Suponha que ao realizar uma busca de árvore você encontre uma árvore com o custo de dez
passos (a árvore ótima), que vamos chamar de S. Observando-se o conjunto de árvores sub-ótimas
vemos que a melhor árvore sem o clado A tem custo de 15 passos, que chamaremos S’. O cálculo
do suporte de Goodman-Bremer é dado pela diferença entre os custos das duas árvores, S`– S, ou
seja, 15 – 10 = 5. Mesmo se encontramos árvores de mais passos que contem o clado A, o valor de
GB continua sendo cinco, pois o que importa é a melhor árvore sem o clado em questão, não a pior
81
árvore com esse clado. Agora suponha que o clado B está ausente em ao menos uma árvore com
somente 11 passos. Seus valores de Bremer seria 11 – 10 = 1.
Os valores de Bremer nos dão uma ideia da quantidade de evidência que seria necessário
para conseguir refutar a hipótese de monofiletismo de um dado grupo. No exemplo acima, seria
necessário obter evidência para alterar o custo da melhor árvore em pelo menos cinco passos para
refutar o clado A, mas apenas um passo para refutar o clado C.
O uso de suporte, e qual medida de suporte usar, é apenas mais uma das etapas de decisões
que devem ser tomadas pelos pesquisadores. Mais complicado ainda é decidir o que fazer com os
valores de suporte obtidos. Por exemplo, suponha que um clado X possa representar uma nova
família, porém, apresenta “baixos” valores de suporte (por exemplo bootstrap de 25% ou Bremer de
1). O que você faria? Daria um nome para esta família? Alguns pesquisadores consideram que a
hipótese mais suportada (i.e., a hipótese ótima) deve ser preferida e usada, independente de quão
mais suportada esta for do que as outras hipóteses, pois cientificamente é a melhor explicação das
evidências. Outros pesquisadores alegam que clados com suportes baixos não são confiáveis e não
devem ser reconhecidos formalmente. A decisão final deve ser tomada de forma consciente,
objetiva e embasada por bons argumentos.
Neste tópico cobrimos apenas uma pequena parcela dos diferentes métodos de suporte ou de
exploração de dados. É interessante que o leitor esteja familiarizado com os principais deles e que
se dedique a conhecer um pouco mais os outros, de modo que decisões futuras possam ser tomadas
de forma objetiva.
Conclusões
82
AGRADECIMENTOS
BIBLIOGRAFIA
83