Você está na página 1de 27

Machine Translated by Google

BAPS: Análise Bayesiana da Estrutura da População

Manual v. 5.3

NOTA: QUAISQUER DÚVIDAS RELATIVAS AO PROGRAMA DEVEM SER


ENVIADAS A JUKKA CORANDER. O ENDEREÇO DE E-MAIL ESTÁ VISÍVEL NA
PÁGINA DA BAPS: http://web.abo.fi/fak/mnf//mate/jc/software/baps.html

Última atualização deste manual em 28.10.2009

Jukka Corander, Pekka Martinen, Jukka Sirén e Jing Tang

Departamento de Matemática, Universidade Åbo Akademi, Finlândia

http://www.abo.fi/mnf/mate/jc/smack_index_eng.html

1
Machine Translated by Google

Índice: Novos
recursos em poucas palavras......................................... .................................................. ...3
Introdução.............................................. .................................................. .........................3 Recursos
básicos da GUI do software ........................ .................................................. .........6 Entradas para
BAPS 5.................................. .................................................. ..............................9 Inserindo o
número máximo de populações, K.............. .........................................9 Agrupamento de
indivíduos........ .................................................. ......................... 10 formato
BAPS ............... .................................................. .......................................10 Dados pré-
processados ...... .................................................. .......................................11 Agrupamento
de grupos de indivíduos .................................................. ......................... 12 formato
BAPS ......................... .................................................. .........................12 Dados pré-
processados .......... .................................................. ..............................12 Agrupamento
treinado ............... .................................................. ..............................12 Agrupamento
espacial......... .................................................. ....................................... 13 Agrupamento de
dados moleculares vinculados.... .................................................. .........13 Mistura de indivíduos
com base no agrupamento de mistura ....................... .........................16 Mistura baseada em
agrupamento pré-definido......... .........................................17 Sobre os
resultados ......... .................................................. .................................................. ... ..18
Partição de mistura ................................................. .................................................. ....18
Partição de mistura................................................. .................................................. .....18
Tesselação de Voronoi e incerteza local ........................................ .........19 'Formas genéticas'
de populações ........................ .................................................. .........20 Plotar fluxo
gênico ......................................... .................................................. ..........21 Gráficos de
mutação: .................................. .................................................. .........................22 Exibindo
árvores de clusters.................. .................................................. ....23 Resultados numéricos no
arquivo de saída para agrupamento de misturas:................... ...............24 Resultados numéricos
no arquivo de saída para análise de mistura:........... .......................25
Instalação......................... .................................................. .........................................26
Referências......... .................................................. .................................................. .........26

2
Machine Translated by Google

Novos recursos em poucas palavras

1. Possibilidade de fazer clustering usando um número fixo de clusters, definido pelo usuário
(Tools-Enable Fixed K-Clustering). Ao escolher esta opção, você pode executar qualquer
uma das análises de mistura (e mistura subsequente) usando um valor pré-especificado
para o número de clusters ajustados aos dados.
2. Possibilidade de executar análises em paralelo usando vários computadores e uma
linguagem de script, consulte o manual separado no site do BAPS.
3. A análise da mistura é aprimorada aumentando a eficiência do
simulações, além de possibilitar a análise de misturas sob o modelo de ligação introduzido
por Corander e Tang (2007). O programa detecta automaticamente se a análise da
mistura foi feita usando o modelo de ligação e executa a mistura usando o modelo
apropriado. Os gráficos de mistura agora têm a possibilidade de mostrar apenas estimativas
de mistura significativas usando um limite especificado pelo usuário para os valores p (Use
o primeiro resultado de carregamento de arquivo - resultado de mistura para carregar o
arquivo de resultado para BAPS e, em seguida, Gráfico - Visualize o resultado de mistura e
defina o limiar do valor p de acordo com suas preferências).
4. Estimação e exibição gráfica de redes de fluxo gênico (Tang et al. 2009).
5. Novas parcelas que permitem a triagem de alelos de diferentes fontes ancestrais.
6. Possibilidade de comparar diretamente diferentes estruturas populacionais
determinadas a priori usando suas probabilidades posteriores (Tools-Partition Compare).
7. Possibilidade de usar árvores UPGMA e Neighbor-Joining para exibir relacionamentos
entre os clusters inferidos.
8. Exibições gráficas das 'formas genéticas' dos clusters inferidos em relação
à afinidade em relação aos demais clusters.

NB! O site do BAPS e este manual contém uma lista de publicações científicas, onde foram
introduzidos os métodos implementados no programa. Alguns métodos estão 'sob submissão' e
outros ainda estão 'em desenvolvimento', portanto, verifique se há atualizações. A maioria dos
novos recursos listados acima são discutidos em detalhes nos dois artigos: (1) Corander J,
Martinen P, Sirén J, Tang J. Modelagem Bayesiana aprimorada no software BAPS para aprender
estruturas genéticas de populações. BMC Bioinformática, 2008, 9:539.

(2) Tang J, Hanage WP, Fraser C, Corander J. (2009). Identificação de correntes no pool gênico
para populações bacterianas usando uma abordagem integrativa. Biologia Computacional PLoS,
5(8): e1000455.

Introdução

BAPS 5 (Bayesian Analysis of Population Structure) é um programa para inferência Bayesiana da


estrutura genética de uma população. O BAPS 5 trata tanto as frequências alélicas dos marcadores
moleculares (ou frequências de nucleotídeos para dados de sequência de DNA) quanto o número de
grupos geneticamente divergentes na população como variáveis aleatórias. No entanto, análises e
comparações de modelos também podem ser realizadas usando um número fixo de grupos
geneticamente divergentes ou estruturas populacionais pré-especificadas.
O BAPS 5 contém todas as funcionalidades do BAPS 4.14 e apresenta várias novas ferramentas
para análises genéticas populacionais.

3
Machine Translated by Google

Com o BAPS 5 você pode agrupar dados moleculares e realizar análises de misturas.
A análise da mistura genética pode ser feita em:

(1) nível de grupo (normalmente corresponde ao agrupamento de populações de amostra), ou


em (2) nível individual.

De fato, em muitas aplicações com dados moleculares relativamente escassos, é aconselhável fazer
análises em ambos os níveis, quando informações auxiliares biologicamente relevantes estiverem
disponíveis para definir os grupos antes da análise da mistura (veja, por exemplo, Corander e Martinen
2006, para mais informações). . Ambos os tipos de análises de mistura genética podem ser feitos
usando um:

(1) não espacial, ou


(2) modelo espacial,

para descontinuidades genéticas em populações. O modelo espacial requer que os dados de


coordenadas estejam disponíveis para as unidades agrupadas (grupos ou indivíduos), no entanto,
estes podem conter também valores ausentes. No 'Agrupamento treinado' você pode fazer uso de
indivíduos cuja origem é conhecida, a fim de encontrar o melhor agrupamento de indivíduos com
origens desconhecidas. Em 'Agrupamento com loci ligados', uma análise de mistura genética é
feita para dados de sequência haploide, dados de sequência diploide/tetraplóide em fase ou para
dados de marcadores ligados para os quais um único alelo é registrado por locus. Os últimos podem
assim ser, por exemplo , marcadores dominantes, como AFLPs para um organismo diplóide ou SNPs
para um organismo haplóide.

Dados os resultados de qualquer um dos modelos para análise de mistura genética, ou qualquer
divisão de um conjunto de indivíduos para um número de 'populações', você também pode fazer
inferências sobre eventos de mistura.

Os diferentes módulos incorporados no BAPS 5 foram introduzidos em diversos trabalhos científicos


e, portanto, a tabela a seguir fornece orientações sobre quais devem ser citados na publicação dos
resultados produzidos com o software. Quando novos métodos/publicações estiverem disponíveis, a
página do BAPS será atualizada com as informações detalhadas das citações científicas.

Módulo de software: Citação científica:


Análise de mistura Corander J, Martinen P. Identificação Bayesiana de
eventos de mistura usando marcadores moleculares
multilocus. Ecologia Molecular, 2006, 15, 2833-2843.

Corander J, Martinen P, Sirén J, Tang J.


Modelagem Bayesiana aprimorada no software
BAPS para aprender estruturas genéticas de
populações. BMC Bioinformática, 2008, 9:539.

4
Machine Translated by Google

Análise de mistura genética não espacial, Corander J, Martinen P, Mäntyniemi S.


incluindo 'agrupamento treinado' Identificação Bayesiana de misturas de estoque a
partir de dados de marcadores moleculares. Boletim
da Pesca, 2006, 104, 550-558.

Corander J, Martinen P, Sirén J, Tang J.


Modelagem Bayesiana aprimorada no software
BAPS para aprender estruturas genéticas de
populações. BMC Bioinformática, 2008, 9:539.

Análise espacial de mistura genética Corander J, Sirén J, Arjas E. Modelagem Espacial


Bayesiana da Estrutura Genética da População.
2008. Estatísticas Computacionais 23, 111-129.

Análise de mistura genética com sequências ou Coentro J, Tang J. (2007). Análise Bayesiana da
loci ligados estrutura populacional baseada em informações
moleculares ligadas. Biociências Matemáticas, 205,
19-31.

Corander J, Martinen P, Sirén J, Tang J.


Modelagem Bayesiana aprimorada no software
BAPS para aprender estruturas genéticas de
populações. BMC Bioinformática, 2008, 9:539.

Estimativas e gráficos para fluxo gênico entre Tang J, Hanage WP, Fraser C, Corander J.
populações inferidas (2009). Identificação de correntes no pool gênico
para populações bacterianas usando uma
abordagem integrativa. Biologia Computacional
PLoS, 5(8): e1000455.
Outros artigos do BAPS (versões 1.0 e 2.xe os Coander, J., Waldmann, P. e MJ
fundamentos matemáticos): Sillanpää. 2003. Análise Bayesiana de diferenciação
genética entre populações.
Genética 163: 367-374.

Corander J, Waldmann P, Martinen P,


Sillanpää MJ (2004) BAPS 2: possibilidades
aprimoradas para a análise da estrutura
genética da população. Bioinformática 20:
2363-2369.

Corander, J., Gyllenberg, M. e Koski, T.


Modelos de partição aleatória e permutabilidade
para identificação bayesiana de estrutura
populacional. Boletim de Biologia Matemática,
2007, 69, 797-815.

A ideia na GUI do BAPS 5 é exatamente a mesma do BAPS 4.14. Qualquer análise é realizada
clicando no botão correspondente e fornecendo a entrada necessária para os algoritmos escolhendo
determinados arquivos e alimentando valores para quaisquer campos abertos por
5
Machine Translated by Google

a GUI. Após a análise, o programa grava os resultados numéricos na janela de log e em um arquivo
de resultados, se tal tiver sido especificado pelo usuário. Se um nome de arquivo de resultados não
for especificado pelo usuário, o BAPS gravará automaticamente os resultados em um arquivo txt com
um nome semelhante ao nome do arquivo de dados usado. Dependendo da situação, o programa
também pode fornecer uma representação visual da mistura genética ou dos resultados da mistura
(isso geralmente é produzido automaticamente). Os gráficos podem ser salvos e abertos no programa
usando o formato interno, mas também podem ser exportados para vários formatos diferentes.

Um arquivo de resultados de formato interno (binário) é produzido cada vez que você executa uma
análise de agrupamento ou de mistura e opta por salvar os resultados quando o programa solicita
(este arquivo contém os valores numéricos necessários, por exemplo, para os gráficos e análises
subsequentes). Observe que isso não se refere ao arquivo de saída especificado no menu Arquivo,
onde os resultados são armazenados em formato de texto.

Dica: Recomendamos que você marque a opção “dados pré-processados” descrita na seção formato
de dados. Esta é uma opção de economia de tempo particularmente útil para análises de grandes
conjuntos de dados. Os arquivos pré-processados são compatíveis entre os módulos de agrupamento
de mistura espacial e não espacial, porém, se você carregar um conjunto de dados pré-processado
sem coordenadas para o módulo de agrupamento espacial, o programa solicitará um arquivo de coordenadas.

Recursos básicos da GUI do software

Existem cinco menus na GUI: Arquivo, Distâncias, Gráfico, Ferramentas e Ajuda. A parte de
documentação no menu Ajuda está inativa no momento, consulte este manual.

No menu Arquivo (veja a imagem abaixo) você pode:

1. Defina ou remova o arquivo de saída de texto onde o programa grava os resultados


numéricos. Observe que quando várias análises são realizadas sem alterar o arquivo de
saída, os novos resultados são sempre anexados após os antigos. Se você não especificar
um arquivo de saída, a saída formatada em texto será gravada no arquivo usando um nome
padrão baseado no nome do arquivo de dados. 2.
Carregue resultados de análises anteriores para reproduzir e/ou modificar gráficos.
Observe que esses arquivos estão em formato binário e que determinadas funções não estão
disponíveis para arquivos salvos com versões anteriores do BAPS. 3.
Resuma os resultados de análises paralelas do mesmo conjunto de dados espalhados
por vários computadores. 4.
Feche um arquivo de resultado, o que significa que uma informação de resultado
carregada anteriormente é removida da memória do programa (o campo sob os botões ficará
em branco).

6
Machine Translated by Google

No menu Distâncias você pode produzir uma variedade de matrizes de distância genética entre os
agrupamentos obtidos em uma análise BAPS.

No menu Gráfico (veja a imagem abaixo) você pode produzir uma grande variedade de gráficos, alguns
dos quais estão disponíveis apenas para determinados tipos de análises. Observe que todos os gráficos
podem ser salvos no formato interno (.fig) ou exportados para vários formatos de arquivo usando o menu
na janela de gráficos. As opções gráficas são explicadas com mais detalhes na seção Resultados. As
seguintes funções estão disponíveis após o carregamento de um arquivo de resultado (binário) no BAPS:

1.Reproduza a imagem da partição mostrando uma solução de agrupamento em que as unidades de


amostragem agrupadas são mostradas como barras verticais coloridas com a cor determinando
a associação do agrupamento.
2.Reproduza a imagem de mistura mostrando para cada indivíduo a proporção do genoma estimada
para ter ascendência em um determinado cluster. As proporções são mostradas como segmentos
coloridos de uma barra vertical onde a cor determina a origem de um segmento.

3. Produzir gráficos mostrando as 'formas genéticas' dos clusters em relação uns aos outros, ver Tang
et al. (2009).
4. Produza uma rede de fluxo gênico para os clusters estimados a partir dos resultados da mistura,
veja Tang et al. (2009).
5. Exiba uma partição espacial dos resultados da análise de cluster espacial usando um
Tesselação de Voronoi.
6. Exiba gráficos em 3D mostrando quão fortemente o posterior é atingido localmente para as células
de tesselação de Voronoi (picos altos significam incerteza considerável sobre a origem da célula
em particular).
7. Desenhe uma árvore filogenética para os clusters usando qualquer um dos três disponíveis
medidas de distância.
8. Produza um 'gráfico de mutação' onde os alelos com suporte para uma ancestralidade diferente
dada uma solução de agrupamento podem ser explorados usando um limite para o fator log
Bayes definido pelo usuário. Se for encontrado suporte estatístico que exceda o limite, os alelos
correspondentes são gravados na janela de log e no arquivo de resultados, consulte Corander et
al. (2008).

7
Machine Translated by Google

No menu Ferramentas você pode:

1.Especifique o agrupamento a ser feito usando o número de agrupamentos que desejar. Observe que
o programa vai para um modo 'Fixed K' escolhendo esta alternativa, e então qualquer análise de
cluster solicitará os clusters de número fixo a serem usados. Se alguém deseja fazer clustering
usando um intervalo de valores de K (#clusters), basta executar a análise de cluster várias vezes,
fornecendo a entrada apropriada. Observe também que o programa solicita o número de execuções
replicadas a serem usadas na estimativa com qualquer valor K fixo. Isso aumenta a probabilidade
de encontrar o agrupamento ótimo posterior com esse valor. A saída do clustering com um número
fixo de clusters contém o valor log(ml) que pode ser usado para comparação das soluções de
clustering. Para detalhes sobre log(ml), veja os documentos do BAPS. No modo 'Not Fixed K', o
programa tratará o número de clusters desconhecido e solicitará ao usuário que especifique um
limite superior (ou uma faixa de limites superiores) para o número de clusters (consulte a seção
Inputs abaixo para obter detalhes ).

2.Compare as probabilidades posteriores de qualquer número de agrupamentos pré-especificados dos


dados, por exemplo, sugeridos por alguma teoria biológica. Os agrupamentos devem ser fornecidos
ao programa usando um arquivo de texto externo com o seguinte formato. Suponha que K clusters
sejam comparados. Então, a primeira linha do arquivo deve conter K probabilidades anteriores
diferentes de zero que somam um (uma anterior uniforme seria uma opção típica). A partir daí,
cada coluna do arquivo definirá uma partição das unidades de amostragem (indivíduos ou grupos
de amostra) que você possui no arquivo de dados. Um exemplo do arquivo para um conjunto de
dados que consiste em três populações de amostra é dado abaixo. Aqui se deseja agrupar as
populações da amostra:

0,333 0,333 0,334


112132 1

No primeiro agrupamento todas as populações amostrais são consideradas geneticamente


distintas, no segundo agrupamento todas elas representam uma única população, e no terceiro
agrupamento a última amostra populacional é reivindicada como sendo 8.
Machine Translated by Google

distinto dos dois primeiros, que são homogêneos. Da mesma forma, se o agrupamento for feito no
nível de indivíduos para o mesmo conjunto de dados e houver três indivíduos de cada população
amostral, um exemplo de arquivo de partição é o seguinte:

0,333 0,333 0,334


1 1 2 1 3 2 4 2 511 6 1 7 3 8 3 9

3 1

3. Carregue as figuras produzidas e salvas anteriormente usando o formato de arquivo .fig. Observe
novamente que todos os gráficos também podem ser exportados para uma variedade de formatos
usando o menu na janela de gráficos.

Entradas para BAPS 5

Aqui você encontra informações sobre o que o programa espera como entrada quando você clica em qualquer
um dos botões de análise, quando o programa não está no modo 'Fixed K'. Para esse modo, consulte também
as informações fornecidas acima para o menu Ferramentas. Para cada módulo de análise existem arquivos de
exemplo disponíveis no site do BAPS para todos os formatos de dados suportados possíveis. Exemplos incluem
casos haplóides, diplóides e tetraplóides.

Inserindo o número máximo de populações, K Em todos os módulos de


agrupamento da 'Análise de mistura populacional' você precisa informar ao programa sua opinião sobre o
número máximo de grupos geneticamente divergentes, digamos K. Em 'Agrupamento treinado' K deve ser
naturalmente maior ou igual ao número de clusters de referência. A distribuição a priori para agrupamentos é
então: (1) uniforme no espaço de agrupamentos tendo no máximo K agrupamentos para o modelo não espacial,
ou (2) não uniforme no espaço de agrupamentos tendo no máximo K agrupamentos para o modelo espacial
modelo, dependendo do padrão espacial dos dados observados. Geralmente, quanto maior o K, mais demorada
será a execução do algoritmo de estimação. Recomendamos que você experimente diferentes valores de K e
execute a análise várias vezes (geralmente é bastante rápido), para ver se os resultados mudam visivelmente
(o que você sempre pode ver comparando seus “logmls” correspondentes). Como exemplo, você pode ter uma
amostra de 100 indivíduos genotipados em 10 loci de microssatélites e, com base em seu raciocínio biológico,
espera encontrar 3 agrupamentos divergentes. No entanto, você também pode ter indivíduos discrepantes nos
dados, não representando nenhum desses 3 grupos, portanto, uma estratégia cuidadosa seria, por exemplo,
executar a estimativa com K = 5, K = 10, K = 15. Se K for definido como extremamente grande, por exemplo,
próximo ao número de indivíduos observados, então o algoritmo pode ficar mais facilmente preso a um modo
local. Claramente, se K for muito pequeno, a estrutura “verdadeira” não pode ser detectada. Se você obtiver o
número estimado de clusters igual a K, tente com um K mais alto, pois, caso contrário, os resultados podem ser
enganosos.

9
Machine Translated by Google

Na prática, a maneira mais fácil de executar o programa várias vezes com K diferente é fornecer um vetor
de valores quando o programa solicitar o número máximo de clusters. Por exemplo, se você deseja executar
a estimativa com K=5, K=10 e K=15, a entrada correta seria: '5 10 15' (sem ':s).

Dica! Você pode preencher quantos valores K desejar na janela de entrada, por exemplo, duzentos. O
campo de entrada simplesmente se desloca para a direita quando é preenchido. Assim, a entrada pode ser:
10 10 10 10 10 10 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 etc.

O que o programa faz para cada valor de K (mesmo as réplicas do mesmo valor) é encontrar as partições
ótimas com k ÿ K, ele as armazena internamente e, após o processamento de todos os valores de K, ele
mescla os resultados armazenados de acordo com os valores logml.
Mesmo que valores de k pequenos sejam considerados a priori possíveis, eles podem ter um ajuste
extremamente ruim em comparação com os valores maiores, caso em que são ignorados nos resultados.

Partir de diferentes valores K é importante também no sentido de que K afeta a atribuição inicial da
simulação e, portanto, a possibilidade de encontrar apenas um modo local é reduzida quando a simulação
é iniciada muitas vezes a partir de diferentes atribuições iniciais. Faz sentido até mesmo iniciar a simulação
muitas vezes com o mesmo K, já que o algoritmo de otimização é estocástico e pode, portanto, resultar em
soluções diferentes em execuções separadas. Se um vetor de valores K for fornecido, o BAPS escreverá
sua saída com base na melhor solução encontrada. É necessário algum cuidado com K, por exemplo, o uso
de K=200 para um conjunto de dados de 250 indivíduos não seria, em geral, uma estratégia sábia.

Veja também a opção 'dados pré-processados', que é muito útil se você deseja executar o programa muitas
vezes e possui um grande conjunto de dados cujo pré-processamento leva muito tempo.

Após a conclusão da análise de agrupamento de misturas, você deve salvar o arquivo de resultados para
usá-lo posteriormente para reproduzir gráficos e realizar análises de misturas. Se você usou clustering de
mistura em nível de grupo, o BAPS precisará saber quantas linhas de um indivíduo são apresentadas nos
dados. Isso será solicitado a você antes que o salvamento seja feito. É responsabilidade do usuário certificar-
se de que os dados originais realmente continham o número determinado de linhas por indivíduo.

Agrupamento de indivíduos Existem


três maneiras alternativas de fornecer entrada para o BAPS 5 quando você deseja fazer o agrupamento de
indivíduos com dados de marcadores não vinculados.

Formato BAPS:
Os arquivos de dados formatados em BAPS devem ser arquivos de texto ASCII simples. O arquivo de
entrada contém uma matriz de dados onde as colunas são separadas por espaços em branco ou tabulações.
As colunas da matriz correspondem aos loci em que os indivíduos foram observados. As linhas da matriz
correspondem aos indivíduos. Há uma coluna adicional na extremidade direita da matriz que contém em
cada linha o índice do indivíduo cujos alelos são apresentados na linha. Pode haver mais de uma linha por
indivíduo. Por exemplo, se os indivíduos são diplóides, deve haver duas linhas por cada indivíduo
correspondendo a dois alelos que podem ser observados em cada locus.

Os alelos podem ser indexados com qualquer valor inteiro não negativo, assim, por exemplo, com
microssatélites, você pode usar diretamente os comprimentos de repetição ou alguma codificação alternativa
dos alelos. Os índices de indivíduos, no entanto, devem começar com 1 para o
10
Machine Translated by Google

primeiro indivíduo e terminar com o valor que corresponde ao número total de indivíduos. O alelo ausente
em algum locus é indicado por qualquer número inteiro negativo, por exemplo –999 ou -9 (estes são
amplamente usados).

Se as populações amostrais dos indivíduos forem conhecidas, você pode inseri-las fornecendo dois
arquivos adicionais: um contendo os nomes das populações, o outro contendo os índices dos primeiros
indivíduos de cada população amostral. Essas informações tornarão a saída numérica e gráfica mais fácil
de investigar.

Os arquivos de exemplo a seguir com 10 loci microssatélites e 5 indivíduos estão incluídos no pacote
ExamplesDataFormatting.zip disponível no site do BAPS. Os dois últimos arquivos fornecem exemplos
sobre as informações da população amostral, que podem ser usadas com o formato de dados BAPS. No
exemplo, existem 3 populações de amostra, de modo que os indivíduos 1-2 pertencem à população de
exemplo 1, indivíduos 3-4 à população de exemplo 2 e o indivíduo 5 à população de exemplo 3.

Exemplo de dados no formato BAPS para agrupamento de indivíduos haploides.txt


Exemplo de dados no formato BAPS para agrupamento de indivíduos diplóides.txt
Exemplo de dados no formato BAPS para agrupamento de indivíduos tetraplóides.txt
Exemplo de arquivo de nomes de população de amostra a ser usado com dados formatados em
BAPS. txt Exemplo de arquivo de índice populacional de amostra a ser usado com data.txt formatado em BAPS

Formato GENEPOP:
Consulte http://wbiomed.curtin.edu.au/genepop/help_input.html para obter informações gerais sobre o
formato GENEPOP. Os dados devem obedecer rigorosamente às regras mencionadas na referida página
quanto à pontuação e espaços vazios. Caso contrário, o BAPS pode se comportar inesperadamente.
Você pode usar códigos de alelos de 2 e 3 dígitos, o BAPS investigará o formato dos dados e agirá de
acordo. No entanto, todos os códigos de alelos em um arquivo de dados devem ter o mesmo número de
dígitos. Observe que quando você usa dados que estão no formato GENEPOP, você sempre precisa
fornecer dois alelos para cada indivíduo em cada locus. Se você deseja agrupar indivíduos haplóides,
você deve marcar o outro alelo de cada indivíduo em cada locus como ausente (00 ou 000). O BAPS usa
os rótulos dos primeiros indivíduos das populações como nomes para as populações.

NB! Não comece os rótulos da população amostral com a palavra 'pop', pois ela será interpretada
erroneamente como o separador da população amostral.

Dados pré-processados:
Antes que o ajuste do modelo possa começar, todos os dados devem ser pré-processados pelo BAPS.
Para grandes conjuntos de dados, o pré-processamento pode levar muito tempo, por exemplo, mais de
meia hora. Se você deseja analisar esses dados muitas vezes a partir de diferentes atribuições iniciais,
economiza algum tempo para salvar os dados após pré-processá-los uma vez. Da próxima vez, em vez
de começar do arquivo de dados original, comece com o arquivo pré-processado que você salvou
anteriormente.
NB! Dados pré-processados dentro de algum módulo de análise de mistura (qualquer um dos 6 botões)
devem ser usados SOMENTE dentro do mesmo módulo! Por exemplo, se um arquivo de dados pré-
processado em 'Agrupamento de indivíduos' for usado para 'Agrupamento de grupos de indivíduos', o
BAPS poderá produzir uma mensagem de erro ou a análise poderá produzir resultados errôneos, mesmo
que nenhum erro seja exibido no log -janela.

11
Machine Translated by Google

Agrupamento de grupos de indivíduos


Existem três formas alternativas de fornecer entrada para BAPS quando você deseja
fazer o agrupamento de grupos de indivíduos.

Formato BAPS:
O arquivo de dados é muito semelhante ao arquivo de dados usado no agrupamento de indivíduos, a
única diferença é que em vez de especificar o indivíduo, a última coluna contém o índice do grupo que
é a origem dos alelos na linha específica .

Os arquivos de exemplo a seguir com 10 loci microssatélites e 5 indivíduos estão incluídos no pacote
ExamplesDataFormatting.zip disponível no site do BAPS. O conteúdo desses arquivos é igual ao
fornecido para 'Agrupamento de indivíduos', exceto que a última coluna agora indica de qual população
de amostra uma determinada linha de dados é obtida. O último arquivo contém os nomes dos grupos
de amostra.
Assim, no exemplo, há novamente 3 populações de amostra, de modo que os indivíduos 1-2 pertencem
à população de exemplo 1, os indivíduos 3-4 à população de exemplo 2 e o indivíduo 5 à população de
exemplo 3. Observe que nenhum arquivo de índice é necessário para isso tipo de análise.

Exemplo de dados no formato BAPS para agrupamento em grupo de indivíduos haploides.txt


Exemplo de dados no formato BAPS para agrupamento em grupo de indivíduos diplóides.txt
Exemplo de dados no formato BAPS para agrupamento em grupo de indivíduos tetraplóides.txt
Exemplo de nomes de populações de amostra arquivo a ser usado com data.txt formatado em BAPS

Formato GENEPOP:
Veja o formato GENEPOP acima no agrupamento de indivíduos. As populações nos dados definem os
grupos a serem agrupados.

Dados pré-processados:
Em vez de iniciar a partir do arquivo de dados de clustering em nível de grupo original, você pode
começar com o arquivo pré-processado que salvou depois de pré-processar os dados originais.
NB! Você não deve usar aqui arquivos pré-processados em 'Agrupamento de indivíduos'.

Agrupamento treinado

Para fazer o agrupamento de indivíduos treinados você deve fornecer dois arquivos de dados: um
contendo os indivíduos de referência cujas origens são conhecidas, o outro contendo as unidades
amostrais (indivíduos ou grupos de indivíduos) que você deseja agrupar. Ambos os arquivos devem
estar no formato GENEPOP (consulte o formato GENEPOP em Clustering of Individuals acima).
Indivíduos em uma população (separados por uma palavra 'pop') no arquivo de dados de referência
correspondem a indivíduos de uma única origem. No outro arquivo a palavra pop separa as unidades
amostrais. Assim, se você deseja agrupar indivíduos desconhecidos um por um, você deve escrever a
palavra 'pop' acima de cada linha que especifica um indivíduo no arquivo de dados da unidade amostral.

Em ambos os arquivos de dados, todos os indivíduos devem receber nomes. Esses nomes serão
necessários para o programa quando a saída for escrita.

Os arquivos de exemplo a seguir (incluídos em ExamplesDataFormatting.zip disponíveis no site do


BAPS) contêm dados de microssatélites de linha de base para 10 loci de 5 populações de linha de base
e dados de amostra com 10 indivíduos de origem desconhecida (o último arquivo):
12
Machine Translated by Google

Exemplo de dados de linha de base no formato GENEPOP para clustering.txt


treinado Exemplo de dados de amostra no formato GENEPOP para clustering.txt treinado

Se houver alguma informação auxiliar disponível, que permita que ocorra um pré-agrupamento dos
dados amostrais em agrupamento treinado antes da análise da mistura, isso pode ser usado no BAPS
formatando o arquivo de dados amostrais GENEPOP de forma que os pré-grupos sejam separados por
a palavra 'pop'. Isso significa que o BAPS força sempre todos os indivíduos dentro de um único pré-
grupo a serem atribuídos à mesma população (uma linha de base ou uma nova população, dependendo
dos dados do marcador e dos valores de K usados como entrada para a análise). O uso desta estratégia
é discutido em Corander et al. (2006). Um exemplo de dados de amostra pré-agrupados em quatro
grupos está contido no arquivo a seguir, onde as informações moleculares são as mesmas do arquivo
de dados de amostra de exemplo acima:

Exemplo de dados de amostra pré-agrupados no formato GENEPOP para clustering.txt treinado

A lógica por trás do uso do pré-agrupamento (ou 'unidades de amostragem') é que, se houver alguma
informação biologicamente relevante disponível que nos diga que alguns indivíduos devem ter a mesma
origem, ainda que desconhecida, então, ao agrupá-los, podemos para aumentar o poder estatístico para
detectar a origem correta. A disponibilidade de tais informações é muito dependente da espécie, e sua
confiabilidade deve ser determinada pelo usuário caso a caso.

Agrupamento espacial

A entrada para os módulos de agrupamento espacial é exatamente a mesma que nos casos acima de
'Agrupamento de indivíduos' e 'Agrupamento de grupos de indivíduos', exceto para os valores de
coordenadas que precisam ser fornecidos em um arquivo separado. O arquivo de coordenadas deve
ser ASCII simples com tantas linhas quantos forem os indivíduos ('Agrupamento espacial de indivíduos')
ou grupos ('Agrupamento espacial de grupos') no conjunto de dados moleculares. Se as coordenadas
estiverem faltando para um indivíduo ou um grupo, isso deve ser indicado por uma linha correspondente
no arquivo de coordenadas contendo dois zeros consecutivos. As colunas no arquivo de coordenadas
devem sempre ser separadas por tabulação.
Observe que os valores de coordenadas negativas também são aceitáveis, mas os zeros são reservados
para os casos com coordenadas ausentes. O arquivo de exemplo a seguir (incluído em
ExampleDataFormatting.zip disponível no site do BAPS) contém coordenadas para 10 casos, de modo
que os valores de coordenadas para o último caso sejam desconhecidos:

Coordenadas de exemplo para o clustering.txt espacial

Conforme explicado em Corander et al. (2008a), a lógica do uso de informações espaciais é atribuir uma
distribuição prévia não uniforme biologicamente relevante sobre o espaço de soluções de agrupamento,
o que espera que os agrupamentos subjacentes sejam espacialmente suaves pelo menos até certo
ponto. Isso aumenta o poder de detectar corretamente a estrutura populacional subjacente e pode ser
usado para investigar a estrutura populacional também visualmente. Quando os dados moleculares são
muito extensos, espera-se que os modelos de agrupamento espacial e não espacial produzam resultados
altamente semelhantes.

Agrupamento de dados moleculares vinculados

13
Machine Translated by Google

Aqui o raciocínio da análise é o mesmo que para a análise de mistura genética usando marcadores não
ligados, exceto que o modelo Bayesiano usado leva em conta as dependências presentes entre os
“loci” (loci marcador ou sítios dentro de sequências alinhadas). As saídas deste módulo de software
também podem ser usadas no módulo de mistura.
O BAPS reconhece automaticamente a partir do arquivo de resultados se o modelo de ligação ou o modelo
de loci independente foi usado na análise de mistura genética e escolhe o modelo de mistura apropriado
quando o arquivo de resultado é carregado em uma análise de mistura.

Todos os arquivos de exemplo mencionados nesta seção estão incluídos no pacote


ExampleDataFormatting.zip disponível no site do BAPS. Quatro opções distintas estão disponíveis para
entrada de dados vinculados: formato MLST (como arquivos fasta separados ou como um único arquivo
Excel), formato numérico BAPS, formato de sequência BAPS e dados pré-processados. A opção MLST
destina-se apenas a dados de sequência para organismos haploides, de modo que o número de genes
usados para agrupamento possa ser convenientemente especificado pelo usuário. O formato BAPS pode
ser usado tanto para análise de sequência quanto para dados de marcadores moleculares vinculados.
Todos os dados de sequência usados devem ter alinhamento múltiplo e comprimento igual para todos os
indivíduos. Quando os dados representam vários genes, o comprimento de qualquer sequência genética
individual pode ser arbitrário.

A opção mais simples para usar dados de sequência de DNA haploide é armazenar as sequências em um
arquivo Excel. As lacunas de sequência e os nucleotídeos ausentes devem ser indicados por um traço (-).
A primeira coluna deve ter o cabeçalho ST na primeira linha, após o que os indivíduos são rotulados por
números inteiros linearmente crescentes nas linhas consecutivas (de 1 a n com n indivíduos no conjunto
de dados). Cada gene será representado por uma coluna na planilha Excel, de modo que a primeira linha
contenha os rótulos dos genes. Assim, a célula na linha i na coluna j+1 deve conter os dados de sequência
para o indivíduo i para o gene j-ésimo.

O arquivo de exemplo a seguir contém dados para 6 indivíduos com mais de 3 genes.

Exemplo de dados de sequência de DNA MLST em formato Excel concatenado.xls

A 2ª opção para leitura em dados de sequência do tipo MLST é usar uma formatação semelhante à
aplicada nos bancos de dados MLST, juntamente com arquivos separados em formatação rápida para
cada gene. Com este formato é conveniente executar várias análises diferentes com diferentes
subconjuntos de genes incluídos. São necessários dois tipos de arquivos: 1) arquivo de perfil semelhante
aos obtidos por consultas ao banco de dados MLST, 2) arquivos de sequência formatados em fasta para
cada gene.

O arquivo de exemplo a seguir contém o perfil de 4 amostras, que são sequenciadas para um total de 6
genes:

Exemplo de um arquivo de perfil MLST para 6 genes.txt

NB! O arquivo de perfil deve ser delimitado por tabulações, com igual número de tabulações entre as
colunas.

Um arquivo de exemplo para um dos genes no arquivo de perfil acima (recA) é o seguinte:

Exemplo de um arquivo de sequência formatado fasta para gene recA.txt

NB! O identificador de sequência, por exemplo >RecA-1, deve corresponder ao nome do gene
correspondente no perfil e ao rótulo do indivíduo (estes dois são separados por um traço).

14
Machine Translated by Google

Após carregar o arquivo de perfil no BAPS, o programa pergunta quais espécies devem ser incluídas
na análise. Ao clicar na opção Selecionar tudo, todas as linhas do conjunto de dados são incluídas.
Depois disso, o usuário tem a possibilidade de escolher um intervalo de isolados (todos ou um
subconjunto deles). Quando a seleção dos isolados estiver concluída (todos os isolados a serem
incluídos estão na janela do lado direito), clique em OK. Em seguida, aparece uma janela para
selecionar os genes para a análise. Para cada gene escolhido, o BAPS exige que o usuário insira um
arquivo Fasta correspondente contendo as sequências alinhadas para todos os isolados incluídos. Os
nucleotídeos ausentes na sequência são, por padrão, indicados pelo ponto de interrogação (“?”) e as
lacunas de sequência indicadas pelo símbolo de traço (“-“). No entanto, ambos os tipos de informações
incompletas serão decodificados da mesma forma depois que os dados forem carregados e, portanto,
não serão distinguíveis. Por conveniência, é possível usar qualquer um dos dois símbolos para denotar
quaisquer bases desconhecidas.

Após todos os dados terem sido fornecidos para o BAPS, ele inicia o pré-processamento dos
arquivos. Recomendamos que você salve os dados pré-processados respondendo Sim à pergunta,
pois isso economiza muito tempo em análises repetidas do mesmo conjunto de dados. O BAPS
solicitará ao usuário que especifique o modelo de ligação e, para dados do tipo sequência, será mais
relevante usar o modelo de ligação de códons. Depois que o modelo de ligação é especificado, o
BAPS pergunta se os dados totalmente pré-processados devem ser salvos (novamente, recomendamos
que o usuário faça isso). Essa questão é levantada porque o modelo de ligação escolhido afetará a
formatação interna dos dados dependendo da eventual presença de valores ausentes. Ao executar
análises repetidas com os mesmos dados, o usuário pode carregar o conjunto de dados totalmente pré-
processado usando a opção 'Pré-processado' ao clicar no botão 'Agrupar com loci vinculados'. A opção
final é escolher o limite superior anterior K inserindo normalmente um intervalo de valores na janela.
Para obter detalhes sobre isso, consulte a seção 'Inserindo o número máximo de populações, K' no
início deste manual.

Como opção alternativa aos dados formatados em MLST, é possível ler dados vinculados no formato
BAPS. Quando o formato de dados BAPS é usado, os dados de sequência devem ser formatados: (1)
como dados de marcadores haploides para os outros módulos de agrupamento (consulte as seções
anteriores deste manual), o que corresponde a uma única linha de dados por indivíduo, ou ( 2) como
dados de marcadores diplóides que são faseados dentro de cada gene considerado, que corresponde
a duas linhas de dados por indivíduo, ou (3) como dados de marcadores tetraplóides que são faseados
dentro de cada gene considerado, que corresponde a quatro linhas de dados por indivíduo.

NB! Observe que, em contraste com o formato MLST, você precisa no formato BAPS para concatenar
as sequências de todos os genes considerados em um único e informar ao programa sobre os limites
dos genes em um arquivo separado (veja abaixo).

Você pode usar um formato baseado em sequência direta (caracteres) ou um formato de entrada de
dados numéricos. O formato numérico é obtido substituindo cada um de A,C,G,T por um inteiro único e
substituindo os eventuais traços por um inteiro negativo, como '-9'.
Assim, essa formatação será exatamente a mesma usada para dados de marcadores não vinculados
formatados em BAPS (consulte as seções anteriores). Os arquivos de exemplo a seguir mostram como
os arquivos de dados formatados de sequência (caractere) BAPS devem se parecer:

Exemplo de um arquivo de sequência haploide formatado em BAPS para agrupamento com loci.txt vinculado
Exemplo de um arquivo de sequência diploide formatado em BAPS para agrupamento com loci.txt vinculado
Exemplo de um arquivo de sequência tetraplóide formatado em BAPS para agrupamento com loci.txt vinculado

15
Machine Translated by Google

NB! Observe que deve haver um espaço entre o último elemento da sequência concatenada e o
índice individual.

No formato BAPS também é necessário informar ao programa sobre os limites dos genes.
Isso é feito fornecendo um arquivo separado onde o número de linhas é igual ao número de genes.
Em cada linha, os inteiros referem-se às colunas da matriz de dados que correspondem aos sítios do
gene na sequência concatenada. Zeros adicionais são usados para preencher as linhas para ter um
número igual de colunas. Um exemplo de arquivo especificando os limites do gene para a sequência
concatenada de um comprimento total de 750 bases, de três genes (200 sítios no 1º gene, 250 sítios
no 2º gene e 300 sítios no 3º gene) é o seguinte:

Exemplo de um arquivo especificando os limites do gene para uma sequência concatenada no formato BAPS.txt

Finalmente, os dados de marcadores ligados (e faseados) devem ser formatados como os dados de
sequência no formato numérico BAPS, ou seja, de forma análoga aos marcadores não ligados. Os
loci que representam o mesmo grupo de ligação devem ser ordenados linearmente de acordo com o
exemplo anterior referente à representação de sequências em vários genes.
Assim, para dados de marcadores, cada “gene” no exemplo anterior deve ser substituído por um
grupo de ligação, e os outros aspectos da formatação são mantidos iguais. O arquivo "mapa de
ligação" deve ser formatado exatamente como o arquivo de exemplo acima para limites de genes, de
modo que um local de sequência seja substituído por um locus. A opção de modelagem apropriada
para dados de marcadores vinculados é normalmente o modelo de ligação 'linear' (para dados de
sequência, a opção 'códon' é recomendada).

NB! O formato de dados BAPS oferece também a opção de fazer agrupamento de grupos de indivíduos
no módulo 'Agrupamento com loci vinculados'. Isso pode ser feito substituindo os rótulos inteiros
individuais na última coluna da matriz de dados por rótulos inteiros das populações correspondentes.

Mistura de indivíduos com base no agrupamento de misturas

O arquivo de entrada para análise de mistura nesta opção é o arquivo binário de resultado do
agrupamento de mistura (salvo pelo usuário no final de qualquer módulo de análise de mistura).
NB! Observe que isso não é a mesma coisa que o arquivo de saída ASCII, onde os resumos de
resultados são escritos em um formato legível por editores de texto (Word, WordPad etc)!

Todos os módulos de agrupamento de mistura (não espaciais, treinados, espaciais, de ligação)


produzem arquivos que são compatíveis com o módulo de mistura. Se você fez várias análises de
cluster com o mesmo conjunto de dados, por exemplo, usando diferentes números de clusters no
modo 'Fixed K', você pode executar a análise de mistura separadamente para cada um deles.

Antes que a análise de mistura possa começar, você será solicitado a inserir o tamanho mínimo de
uma população que será levada em consideração quando a mistura for estimada.
O BAPS removerá então os indivíduos que pertencem a um cluster cujo tamanho é menor que o
número fornecido. Os indivíduos discrepantes removidos são exibidos na tela.

No BAPS 5, você também será perguntado o seguinte: 1) o número de iterações que são usadas para
estimar os coeficientes de mistura para os indivíduos, 2) o número de indivíduos de referência de
cada população, 3) o número de iterações que são usadas estimar os coeficientes de mistura para os
indivíduos de referência. Estes três

16
Machine Translated by Google

coisas afetam a precisão da estimativa. A primeira entrada determina o número de vezes que
os indivíduos nos dados são analisados usando diferentes frequências alélicas simuladas.
Quanto maior essa entrada, melhor a incerteza nas frequências alélicas é levada em
consideração. Um bom valor seria, por exemplo, 100. Para conjuntos de dados realmente
extensos, valores mais baixos podem ser usados de acordo com o tempo disponível para a
análise. A segunda e a terceira entrada são necessárias na simulação e estimativa de
indivíduos de referência. Esses indivíduos são usados para estimar o nível de mistura espúria
que pode ser atribuído à variação molecular na população estimada na análise de mistura
genética (ver Corander e Martinen 2006). Um bom valor para o número de indivíduos de
referência de uma população seria, por exemplo, 200.
Como a precisão dos coeficientes de mistura para os indivíduos de referência não é de grande
importância, o número de iterações usado para analisar esses indivíduos pode ser muito menor
do que o que foi usado na análise dos indivíduos nos dados.
Valores razoáveis seriam, por exemplo, algo entre 5 e 20. Geralmente, é uma boa ideia testar
primeiro com pequenas entradas para ver quanto tempo a análise leva e depois fazer uma
nova análise usando valores mais altos.

Mistura baseada em clusters predefinidos

Se o usuário tiver uma boa idéia de como os indivíduos devem ser agrupados, por exemplo,
com dados de espécies puras e híbridas, a análise de mistura pode ser feita com base em
uma partição de indivíduos fornecida pelo usuário. Neste módulo há novamente duas
alternativas para fornecer a entrada para o programa: os formatos BAPS e GENEPOP. Se
você usar o formato BAPS, os arquivos de entrada são exatamente semelhantes aos usados
no agrupamento de indivíduos. No entanto, você também precisa fornecer um arquivo adicional
que contenha a partição dos indivíduos. O arquivo de partição contém tantas linhas quantos
os indivíduos nos dados. Em cada linha há um índice que identifica o cluster ao qual o indivíduo
pertence. Os índices dos clusters devem variar de 1 ao número total de clusters. O arquivo
abaixo contém uma partição de exemplo para um conjunto de dados com 10 indivíduos (eles
podem ser de qualquer nível de ploidia) que são atribuídos a priori em 3 populações.

Exemplo de um arquivo de partição para análise de mistura com base em populações.txt especificadas pelo usuário

Se for usado o formato GENEPOP, o arquivo de entrada é novamente semelhante ao usado


no agrupamento de indivíduos. No entanto, aqui as populações de indivíduos nos dados
(separadas pela palavra 'pop') são usadas para definir a partição de indivíduos na qual a
análise de mistura será baseada, em vez de definir as populações amostrais, como em
'agrupamento de indivíduos '.

NB! Também é possível estimar a mistura de indivíduos com relação a diferentes origens,
mesmo que a colocação desses indivíduos em diferentes agrupamentos não seja conhecida
e, portanto, eles não contribuem para as frequências alélicas de nenhuma população em
particular. Como exemplo, suponha que você tenha dois grupos de indivíduos de duas origens
diferentes e um terceiro grupo de indivíduos suspeitos de serem misturados entre duas origens
conhecidas (por exemplo, híbridos). Agora você deseja conhecer as proporções de mistura
dos indivíduos do terceiro grupo. Para fazer este tipo de análise no formato BAPS você só
precisa marcar o cluster (no arquivo de partição) daqueles indivíduos que não estão pré-
atribuídos a nenhum cluster como -1. No formato GENEPOP a análise é igualmente fácil.
Você apenas adiciona uma população extra no final do arquivo de dados que especifica os
indivíduos que não foram pré-atribuídos aos clusters. Antes de iniciar a análise, o programa
perguntará se a última população no arquivo de dados será usada para definir mais um cluster
em relação a quais proporções de mistura serão estimadas, ou se a
17
Machine Translated by Google

última população consiste em indivíduos que não contribuem para as frequências alélicas de
nenhum cluster.

NB! Para que esse tipo de análise de mistura seja razoável, você deve ter certeza de que as
populações especificadas pelo usuário realmente são geneticamente distintas, pelo menos até
certo ponto.

Como na análise de mistura baseada em agrupamento de misturas, agora também será


solicitado o tamanho mínimo de uma população que será levado em consideração quando a
mistura for estimada. No BAPS 5 você também terá que inserir os valores que determinam o
número de iterações e o número de indivíduos de referência. (veja: Mistura baseada em
agrupamento de mistura.)

Sobre os resultados

Alguns gráficos são produzidos automaticamente pelo BAPS após a conclusão de uma análise.
No entanto, para acessar todas as opções gráficas, o usuário pode carregar um arquivo de
resultados no menu Arquivo-Carregar resultado, após o que várias opções ficarão disponíveis
no menu Gráfico, dependendo do tipo de arquivo carregado.

Partição de mistura

A saída gráfica do agrupamento de mistura é uma partição colorida das unidades agrupadas
(veja a imagem de exemplo abaixo), que é produzida automaticamente quando há no máximo
30 agrupamentos. Esta saída também está disponível no menu Figuras como a opção View
Partition –. Cada cluster recebe uma cor exclusiva no gráfico, mas a ordenação das cores é
arbitrária, portanto, não é possível comparar cores entre análises. Cada “unidade amostral” (um
indivíduo ou um grupo) que foi agrupado, é representado por uma barra vertical com a cor
correspondente ao agrupamento onde foi colocado. A largura das barras depende de quantas
delas precisam ser desenhadas. Se os nomes das populações amostradas foram fornecidos ao
programa (consulte a seção de formato de entrada), eles são impressos abaixo das barras
coloridas para indicar as origens das amostras. Os nomes aparecem na mesma ordem dos
dados e são impressos no meio do conjunto de barras que representam a população de amostra
específica. Na imagem do resultado do 'Agrupamento treinado' os indivíduos estão em tal ordem
que primeiro (da esquerda) vêm os indivíduos de referência com origens conhecidas e depois
deles vêm todos os outros indivíduos.

Partição de mistura

A saída gráfica do agrupamento de mistura é, na maioria das análises, também produzida


automaticamente quando há no máximo 30 agrupamentos (a mistura usando dados vinculados
é uma exceção). Cada cluster recebe uma cor única no gráfico, mas a cor
18
Machine Translated by Google

a ordenação é arbitrária entre as análises. Observe que aqui cada barra vertical colorida corresponde
necessariamente a um indivíduo, na mesma ordem dos dados originais fornecidos pelo usuário. As
barras verticais são divididas em várias cores quando há evidência da mistura, de modo que cada cor
corresponde a uma fonte ancestral (um cluster), e a proporção de uma determinada cor na barra vertical
corresponde à proporção do genoma estimado para ser representado por essa fonte. A imagem abaixo
fornece um exemplo de partição de mistura. Uma ferramenta gráfica para otimizar os gráficos de mistura
para clareza visual está incluída no software.

NB! Os gráficos de mistura exibidos por padrão após a estimativa mostram as estimativas posteriores
para todos os casos, independentemente dos valores p simulados. Os gráficos de mistura também
contêm a possibilidade de mostrar apenas estimativas de mistura significativas usando um limite
especificado pelo usuário para os valores-p (Use o primeiro resultado de carregamento de arquivo-
resultado de mistura para carregar o arquivo de resultado para BAPS e, em seguida, Gráfico - Visualize
o resultado de mistura e defina o limiar do valor p de acordo com suas preferências).

Tesselação de Voronoi e incerteza local

As tesselações de Voronoi são produzidas pelo módulo de agrupamento espacial quando há no máximo
30 agrupamentos nos dados (também acessível através do menu Gráfico com ou sem rótulos de dados).
Uma célula da tesselação corresponde à vizinhança física de um ponto de dados observado e é colorida
de acordo com a associação do cluster. Uma representação gráfica 3D da incerteza local posterior na
tesselação estimada está disponível no menu Gráfico como 'Incerteza local'. Esses gráficos são
considerados em detalhes em Corander et al. (2008a). Exemplos são fornecidos pelas imagens abaixo.

19
Machine Translated by Google

'Formas genéticas' de populações

A função 'Changes of log likehood' no menu Graph pode ser usada para fazer uma
investigação baseada em modelo das 'formas genéticas' das populações estimadas
(clusters). Nesta ferramenta é possível escolher um cluster 'fonte' (um único cluster ou
vários) e então especificar um conjunto de clusters 'alvo', de modo que o BAPS calcule as
mudanças na probabilidade log marginal de ocorrência do modelo de cluster de mistura
usado quando um indivíduo é realocado do cluster de origem para um cluster de destino.
Esses valores são calculados para todos os indivíduos dos agrupamentos escolhidos e
estão relacionados às afinidades genéticas entre os agrupamentos. Além disso, a
composição genética de um cluster (ou seja, a população subjacente estimada) afetará a
forma da distribuição dos valores. Para fornecer pistas visualmente interpretáveis para
investigar como as populações se relacionam entre si de acordo com o modelo de mistura
e quão heterogênea uma população é a esse respeito, o BAPS estima curvas de densidade
não paramétricas a partir do conjunto obtido de mudanças de probabilidade marginal logarítmica.

Uma imagem de exemplo é mostrada abaixo, onde existem 5 populações estimadas


(clusters) e o cluster 3 é escolhido como 'fonte'. Mudanças negativas na probabilidade
marginal logarítmica perto de zero indicam que o modelo de mistura julga ambas as
atribuições (conjunto de origem e cluster de destino) como estatisticamente razoáveis para
um indivíduo. Em contraste, valores mais distantes de zero indicam que a afinidade genética
relativa dos agrupamentos diminuiu. No exemplo, vê-se, por exemplo, que o cluster 3 está
geneticamente muito mais próximo dos clusters 1 e 4, do que 2 e 5. Além disso, o maior
nível de pico na curva vermelha mostra que as afinidades genéticas dos indivíduos no
cluster 3 para aqueles no cluster 1 são altamente semelhantes, porque os valores das
mudanças de probabilidade marginal logarítmica estão concentrados em um intervalo
bastante curto. Em contraste, as afinidades para o cluster 2 (curva verde) são mais
amplamente distribuídas. As curvas podem assim ser usadas para investigar as 'formas
genéticas' das populações estimadas em relação umas às outras. Por exemplo, uma curva
bimodal revela que a população estimada consiste em duas partes com afinidade genética
distinta para outra população. Para mais exemplos, ver Tang et al. (2009).

20
Machine Translated by Google

Traçar fluxo gênico

A função Plot Gene Flow no menu Graph estima e desenha uma rede de clusters onde o
fluxo gênico é indicado por setas ponderadas, de modo que os pesos sejam iguais a
quantidades médias relativas de ancestralidade no cluster de origem entre os indivíduos
atribuídos ao cluster de destino. Esta função torna-se acessível, quando um arquivo de
resultado de uma análise de mistura é carregado através do menu Arquivo.

Para utilizar esta função, é necessário instalar o pacote GraphViz que é chamado pelo
BAPS para desenhar os gráficos. GraphViz pode ser baixado deste site: www.graphviz.org.
Ao escolher a função Plot Gene Flow –, o BAPS solicitará primeiro ao usuário que
especifique um limite para a significância dos valores p das estimativas de mistura. A
opção padrão é 0,05, que provavelmente será satisfatória para a maioria das análises.
Depois disso, o BAPS abre uma caixa de diálogo onde é fornecida a pasta que contém o
programa GraphViz (dot.exe). Em uma instalação típica do Windows, esse caminho é
\Program Files\ATT\GraphViz\bin. O BAPS produz agora uma janela gráfica, onde é
desenhada a rede de fluxo gênico estimado.

NB! Devido ao dimensionamento inadequado da imagem, a janela pode ser apenas


parcialmente visível para determinados arquivos de resultados. Para ver toda a rede,
arraste a parte inferior da janela e redimensione-a até que o painel azul superior fique
visível. A janela pode ser movida na tela puxando-a com o mouse no painel azul. Se a rede
ainda estiver apenas parcialmente visível ou parecer muito confusa, ela pode ser limpa
com a poda das bordas (setas). Isso é feito através do menu Atributos – Podar arestas da
janela gráfica. Ao escolher o menu, abre-se uma caixa de diálogo onde pode ser definido
o peso mínimo da aresta a ser mostrado. O valor padrão é o menor peso estimado dos
dados maiores que zero. Por exemplo, um valor 0,01 provavelmente funcionará bem para
muitos casos, e afirma que o fluxo gênico relativo médio entre duas populações (clusters)
deve ser de pelo menos 0,01 antes que uma aresta entre elas seja incluída na rede. Após
inserir o valor limite, a rede será redesenhada. Em alguns casos será necessário
redimensionar e reposicionar a janela gráfica novamente, antes que toda a imagem fique
claramente visível. Se o nível de poda parecer insuficiente, o procedimento pode ser
repetido com um valor limite diferente. A imagem pode ser exportada para vários formatos
gráficos diferentes clicando no ícone do disco.
Dois exemplos de redes são mostrados abaixo, um com o limite mínimo padrão na inclusão
de borda e o outro mostra a mesma rede com poda com base no valor de limite 0,01. Para
mais exemplos, ver Tang et al. (2009).

21
Machine Translated by Google

Gráficos de mutação:

A função 'Mutation plot' no menu Graph oferece a possibilidade de fazer para qualquer
indivíduo uma triagem de alelos que mostrem evidências conclusivas de uma ancestralidade
desviante. Esta função torna-se acessível quando um arquivo de resultado de agrupamento
de mistura é carregado por meio de Arquivo – Carregar resultado. A função abre primeiro
uma caixa de diálogo, onde deve ser dado o índice do indivíduo e um limiar de 'significação'.
O limite padrão é 2,3 (em uma escala logarítmica), que corresponde a um fator Bayes de pelo
menos 10 em favor de uma ancestralidade que se desvia da população (ou seja, cluster) à
qual o indivíduo foi atribuído na análise de mistura genética. Esses gráficos são considerados
em detalhes em Corander et al. (2008b).

Uma imagem de exemplo é mostrada abaixo, onde dois painéis são mostrados se os dados
forem diplóides, de modo que o painel inferior corresponda ao primeiro alelo e o painel
superior ao segundo alelo em cada locus. Os loci são mostrados na ordem em que estão no
arquivo de dados original. Uma barra colorida é mostrada para os loci com evidência maior
que o limiar para a hipótese de que o alelo em questão tem sua ascendência em outro lugar
que não na população (ou seja, cluster) ao qual o indivíduo foi atribuído na análise de mistura
genética. Os segmentos coloridos na barra correspondem às probabilidades posteriores de
cada possível origem ancestral do alelo sob uma distribuição anterior uniforme. Por exemplo,
se um indivíduo foi atribuído a um cluster azul na análise de mistura genética e a barra colorida
é totalmente verde, corresponde ao caso em que o
22
Machine Translated by Google

O fator de Bayes mostra para este alelo em particular uma evidência contundente para a
ancestralidade na população verde.

Ao especificar o arquivo de saída BAPS via Arquivo – Arquivo de saída, os resultados da triagem
de alelos são gravados no arquivo (eles também são mostrados na janela de log). Os resultados
para a imagem de exemplo são os seguintes:

Locais putativos para mutações:

locus, haplótipo, possíveis origens

16 1 3(3,1763) 5(2,767)

48 1 2(2,4618) 5(2,3355)

167 1 2(3,3364)

200 1 1(2.669)

231 1 5(2,3993)

330 1 1(4,8763) 2(3,1397)

51 2 3(4,0413)

177 2 2(3,0487) 3(3,2618)

As origens alternativas de um alelo são mostradas como índices de agrupamento, com a força da
evidência (fator log Bayes) entre parênteses. Por exemplo, no caso do exemplo, o fator log Bayes
é ~4,04 em favor da origem ancestral na população 3 para o segundo alelo no locus 51, que
corresponde à barra quase inteiramente azul no painel superior da imagem abaixo.

Exibindo árvores de clusters

A função 'Phylogeny' está acessível no menu Graph quando um arquivo de resultado de


agrupamento de mistura foi carregado no BAPS. Dois tipos de árvores estão disponíveis: Neighbor
Joining e UPGMA. Eles podem ser usados para explorar rapidamente os relacionamentos entre os
clusters identificados. Um exemplo de árvore UPGMA baseado nas distâncias de Nei (média sobre
loci) é mostrado abaixo. A aparência visual da árvore pode ser alterada através do menu Atributos
na janela gráfica.

23
Machine Translated by Google

Resultados numéricos no arquivo de saída para clustering de mistura:

Um exemplo do arquivo de resultados para clustering de nível individual é fornecido abaixo. As


alterações relatadas em “logml” se o indivíduo i for movido para o grupo j, referem-se a quanto pior
a solução se tornaria com a alteração indicada. O número é o logaritmo do fator de Bayes, de
modo que exp(“valor absoluto da mudança”) informa quantas vezes melhor é a partição ideal (ou
seja, agrupamento). O valor é zero para o cluster onde o indivíduo está na solução ótima. Valores
absolutos muito pequenos da mudança (<2,3, ver Kass e Raftery, 1995), indicam que o indivíduo
também pode ser alocado para o cluster alternativo. Para uma explicação detalhada dos fatores
de Bayes, ver Kass e Raftery (1995). A matriz de divergência KL refere-se à divergência Kullback-
Leibler estimada entre os clusters.

NB! É possível converter facilmente a tabela de log das mudanças de probabilidade marginal em
probabilidades posteriores condicionais para cada indivíduo. Isso pode ser feito transformando
cada elemento, digamos xic, em uma linha particular i de acordo com a fórmula: yic = exp(xic)/
[ÿc=1,…,k exp(xic)], onde ÿc=1,…, k refere-se à soma das k colunas na tabela (os k clusters
estimados). O valor yic refere-se à probabilidade condicional posterior de atribuir o indivíduo i ao
cluster c de acordo com os dados.

Uma lista de tamanhos das dez partições mais visitadas com seus valores de log(ml) é exibida.
Esses valores podem ser usados para estimar o número "correto" de clusters. Também é fornecida
uma probabilidade posterior para o número de clusters. Essa probabilidade é baseada no log(ml):s
das partições que foram visitadas durante a execução atual. A probabilidade deve ser apenas uma
estimativa aproximada. Para obter uma imagem melhor das probabilidades de diferentes números
de clusters, você deve executar o programa várias vezes fornecendo um vetor de valores para K
no início (consulte: Inserindo o número máximo de populações, K). Então a probabilidade seria
calculada com base nas melhores partições que foram visitadas durante todas as execuções.
Além disso, a opção de usar o modo 'Fixed K' é útil quando há muita incerteza em relação ao
número de clusters, pois você pode explorar facilmente uma faixa de diferentes valores K fixos e
os valores log(ml) associados.

RESULTADOS DA ANÁLISE DE MISTURA DE NÍVEL INDIVIDUAL:


Arquivo de dados: my_funny_data_set.mat Número de indivíduos
agrupados: 42
24
Machine Translated by Google

Número de grupos na partição ideal: 6


Log(probabilidade marginal) da partição ideal: -1706,9897

Melhor partição:
Grupo 1: {7, 8, 31, 32, 33}
Grupo 2: {1, 2, 3, 6, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
20, 24, 25, 26, 27, 28, 29, 30, 34, 35, 36}

Grupo 3: {4, 5}
Grupo 4: {37, 38, 39}
Grupo 5: {21, 22, 23}
Grupo 6: {40, 41, 42}

Alterações no log (probabilidade marginal) se o indivíduo i for movido para o grupo


j: ind 1 1: -36,9 2
2: -37,83 4 6
5,0 -50,3 -68,4 -67,9 -106,4,0 -54,6
-72,8 -72,3 -107,9
.
.
.
41: -110,9 -167,0 -101,4 -103,9 -120,0 42: -103,5 .0
-164,5 -100,4 -102,3 -120,8 .0

Matriz de divergência KL: 1


234 5 6

1 2 0,311
3 0,419 0,516 4
0,543 0,632 0,355 5 0,598
0,683 0,394 0,505 6 0,710 1,021
0,667 0,677 0,807

Resultados numéricos no arquivo de saída para análise de mistura:

Um exemplo do arquivo de resultado para análise de mistura realizada pelo BAPS 5 é dado abaixo.
Foram encontrados 5 clusters pelo algoritmo de agrupamento. O número na coluna i após o rótulo de
ID individual é a estimativa média posterior Bayesiana da proporção do genoma representado pelo
cluster i. Aqui, o primeiro indivíduo estimou coeficientes de mistura 0,05, 0,87 e 0,08 para o 1º, 3º e
4º agrupamentos. A coluna final fornece o valor p para o indivíduo. Este valor informa a proporção de
indivíduos de referência simulados da população em que o indivíduo foi originalmente agrupado
tendo o coeficiente de mistura ao agrupamento menor ou igual ao indivíduo. Por exemplo, o valor-p
para o primeiro indivíduo no exemplo é 0,43, o que significa que 43% dos indivíduos de referência
simulados da população 3 (a população na qual o indivíduo 1 foi agrupado pela primeira vez) tiveram
coeficiente de mistura para a população 3 menor ou igual para 0,87. Indivíduos com valor de p maior
que 0,05 são, por padrão, considerados como tendo evidência “não significativa” para a mistura. Aqui,
o indivíduo 1 não tem mistura “significativa”, enquanto os indivíduos 31, 561 e 562 têm mistura
“significativa”. Se um usuário deseja aplicar um limite de “significância” mais rigoroso, pode-se
simplesmente usar um limite mais baixo para os valores na coluna final.

25
Machine Translated by Google

NB! Lembre-se que quando os gráficos de mistura são desenhados por padrão, eles exibem todas as estimativas
posteriores dos coeficientes de mistura, independentemente do valor p. Conforme explicado na seção Gráficos
deste manual, os gráficos podem ser redesenhados através do menu Gráfico usando um limite (padrão 0,05), de
modo que os indivíduos com um valor p maior que o limite sejam mostrados com uma barra de cor única no
imagem (ou seja, nenhuma evidência para a mistura).

RESULTADOS DA ANÁLISE DE ADMISTURA BASEADA


SOBRE AGRUPAMENTO DE MISTURA DE INDIVÍDUOS

Arquivo de dados: data_example_five_populations.mat Número de indivíduos:


600
Resultados baseados em 50 simulações de frequências alélicas posteriores.

1: 0,05 0,00 0,87 0,08 0,00: 0,43


2: 0,00 0,02 0,84 0,05 0,09: 0,315
3: 0,05 0,04 0,91 0,00 0,00: 0,615
4: 0,00 0,00 0,99 0,01 0,00: 0,95
.
.
.
27: 0,01 0,00 0,92 0,02 0,05: 0,65
28: 0,09 0,00 0,88 0,03 0,00: 0,465
29: 0,07 0,00 0,77 0,16 0,00: 0,11
30: 0,00 0,00 0,98 0,01 0,01: 0,915
31: 0,12 0,00 0,72 0,16 0,00: 0,025
32: 0,11 0,00 0,89 0,00 0,00: 0,505
.
.
560: 0,99 0,01 0,00 0,00 0,00: 0,83
561: 0,49 0,00 0,00 0,51 0,00: 0
562: 0,37 0,00 0,04 0,59 0,00: 0,01
.
.
.

Instalação

O BAPS está atualmente disponível para os sistemas operacionais Windows 2000/XP/Vista, Mac OS X e Linux.
Também estamos desenvolvendo um sistema baseado em uma arquitetura de computação paralela com uma GUI
baseada em www.

O executável baixado de http://web.abo.fi/fak/mnf//mate/jc/software/baps.html.


programa posso livremente serPara usar o software, um componente
de tempo de execução disponível no site (versões diferentes para os três sistemas operacionais) deve ser instalado
primeiro. O componente runtime pode ser instalado em qualquer lugar do sistema operacional, EXCETO no
caminho do Matlab, se o Matlab estiver instalado em seu computador. Após a conclusão da instalação do
componente de tempo de execução, descompacte o pacote BAPS em qualquer pasta e o programa estará pronto
para uso (exceto para Mac OS X e Linux, veja mais detalhes de instalação no site do BAPS). Observe que no Mac
OS X você só pode ter uma única versão do componente runtime instalada por vez.

Referências

26
Machine Translated by Google

Corander J, Martinen, P. (2006). Identificação Bayesiana de eventos de mistura usando


marcadores moleculares multilocus. Molecular Ecology, 15, 2833-2843.

Corander, J., Martinen, P. e Mäntyniemi, S. (2006). Identificação Bayesiana de misturas de


estoque a partir de dados de marcadores moleculares. Boletim da Pesca, 104, 550-558.

Corander, J. e Tang, J. (2007). Análise Bayesiana da estrutura populacional baseada em


informações moleculares ligadas. Biociências Matemáticas, 205, 19-31.

Corander, J., Sirén, J. e Arjas, E. (2008a). Modelagem espacial bayesiana da estrutura genética
populacional. Estatísticas Computacionais, 23, 111-129.

Corander J, Martinen P, Sirén J, Tang J. (2008b). Modelagem Bayesiana aprimorada no


software BAPS para aprender estruturas genéticas de populações. BMC Bioinformática, 9:539.

Kass R, Raftery AE (1995) Fatores de Bayes. J Amer Stat Assoc 90: 773-795.

Tang J, Hanage WP, Fraser C, Corander J. (2009). Identificação de correntes no pool


gênico para populações bacterianas usando uma abordagem integrativa. Biologia
Computacional PLoS, 5(8): e1000455.

27

Você também pode gostar