Escolar Documentos
Profissional Documentos
Cultura Documentos
doi: 10.1093/gigascience/giy154
Acesso Antecipado Data de Publicação: 11 de dezembro
de 2018 Nota Técnica
NOTA TÉCNICA
Abstrato
Grandes conjuntos de dados, acumulados de estudos biomédicos e agronômicos, fornecem o potencial para identificar genes que
controlam doenças humanas complexas e características agrícolas importantes por meio de estudos de associação genômica ampla
(GWAS). No entanto, grandes conjuntos de dados também levam a desafios computacionais extremos, especialmente quando modelos
estatísticos sofisticados são empregados para reduzir simultaneamente falsos positivos e falsos negativos. O recém-desenvolvido método de
unificação de probabilidade circulante de modelo fixo e aleatório (FarmCPU) usa um método bin sob a suposição de que os nucleotídeos de
características quantitativas (QTNs) são distribuídos uniformemente por todo o genoma. Os QTNs estimados são usados para separar um
modelo linear misto em um modelo de efeito fixo computacionalmente eficiente (FEM) e um modelo de efeito aleatório computacionalmente
caro (REM), que são então usados iterativamente. Para eliminar completamente o REM computacionalmente caro, substituímos REM por
FEM usando critérios de informação Bayesianos. Para eliminar a exigência de que os QTNs sejam distribuídos uniformemente por todo o
genoma, substituímos o método bin por informações de desequilíbrio de ligação. O novo método é chamado de Bayesian-information and
Linkage-disequilibrium Iteratively Nested Keyway (BLINK). As análises de dados reais e simulados demonstraram que o BLINK melhora o
poder estatístico em comparação com o FarmCPU, além de reduzir notavelmente o tempo de computação. Agora, um conjunto de dados com
um milhão de indivíduos e meio milhão de marcadores pode ser analisado em três horas, em vez de uma semana usando
FarmCPU.
1
Machine Translated by Google
reduz os falsos positivos, mas também causa falsos negativos e parentesco de grau reduzido. Em vez de usar todos os marcadores disponíveis,
cargas computacionais [9-11]. um subconjunto de marcadores genéticos, menor que o número de indivíduos na
A estrutura populacional é tipicamente incorporada como um efeito fixo amostra, é usado para criar o parentesco com classificação reduzida.
no modelo linear geral (GLM), que é computacionalmente eficiente. Inicialmente, a Além disso, o FaST-LMM usa diretamente este subconjunto de marcadores para
estrutura populacional foi derivada como as proporções de indivíduos pertencentes definir as relações entre os indivíduos para otimização ML ou REML sem primeiro
a subpopulações [12, 13]. Várias alternativas para definir a estrutura populacional, calcular o parentesco. Como resultado, o tempo de computação é linear ao tamanho
como análise de componentes principais (PCA) [14, 15], foram desenvolvidas para da amostra.
melhorar ainda mais a eficiência computacional. A estrutura da população O quinto marco foi GRAMMAR (associação de todo o genoma usando modelos
mistos lineares e logísticos e regressão)-
e PCA são eficientes para incorporar efeitos de subpopulação, mas não são capazes Gamma [24], um método que divide a análise de associação em
de modelar a relação críptica entre dois passos. A primeira etapa usa MLM para derivar os resíduos. O
indivíduos dentro de subpopulações. Incorporando ambos os efeitos A segunda etapa testa os resíduos como traços transformados em um
de sup-populações e relacionamento enigmático entre indivíduos modelo de efeito e aplica um fator de correção para testar valores estatísticos. A
reduz ainda mais os falsos positivos e aumenta o poder estatístico complexidade computacional da segunda etapa é linear para
[9]. Relacionamentos enigmáticos podem ser incorporados de duas maneiras. Um o número de indivíduos.
maneira é incluir todos os marcadores genéticos como efeitos aleatórios. Algum Com exceção do CMLM, o objetivo principal do acima
desses marcadores capturam os efeitos de nucleotídeos de traços quantitativos marcos foi melhorar a velocidade de computação. A estatística
(QTNs) através do desequilíbrio de ligação (LD) [16-18]. poder de cada um desses marcos permanece semelhante ao MLM convencional [9]
A outra maneira é primeiro derivar parentesco entre indivíduos usando porque o mesmo parentesco ou similar é usado
todos os marcadores genéticos. O parentesco é posteriormente usado para definir independentemente das características que estão sendo analisadas. A CMLM, por outro lado,
a estrutura de variância de efeitos individuais como efeitos aleatórios. representou o primeiro ajuste de parentesco para melhorar o poder estatístico [21].
Neste último, tanto a estrutura populacional quanto o parentesco podem ser No MLM, os efeitos genéticos dos indivíduos no MLM convencional são substituídos
incorporados em um efeito fixo e um efeito aleatório misto linear. pelos efeitos genéticos de seus grupos de parentesco correspondentes, ou seja, o
modelo (MLM) [9]. No entanto, o cálculo do MLM é intensivo. Assim, vários métodos parentesco entre indivíduos é substituído pelo parentesco entre grupos. Além disso,
têm sido desenvolvidos para reduzir o ajuste
os tempos de computação de MLM. sobre parentesco é otimizado para os traços particulares que estão sendo estudados.
O primeiro marco que reduziu essa carga computacional foi o desenvolvimento Por exemplo, o parentesco com o melhor ML ou REML é usado para
da associação de modelos mistos eficientes (EMMA) [19]. Antes dos métodos marcadores de teste. Outras otimizações também foram desenvolvidas para definir
EMMA, a máxima probabilidade o parentesco mínimo e máximo do grupo, além de
(ML) ou máxima verossimilhança restrita (REML) realizou uma otimização parentesco médio [25].
bidimensional da variância genética e da variância residual usando métodos como O segundo ajuste para melhorar o poder estatístico emprega
expectativa e maximização (EM). Usando EMMA, ML ou REML é uma função da parentesco que não é apenas específico para traços, mas também específico para
razão marcadores de teste [26, 27]. O parentesco é construído usando apenas os
entre variância genética e variância residual. Ao reduzir o marcadores associados a uma característica. Porque vários associados
otimização de duas dimensões (variância genética e variação residual) para uma marcadores podem ser ligados geneticamente, um procedimento de bin foi
dimensão (razão de variação genética-residual), a velocidade de computação desenvolvido para remover essa redundância. O procedimento recebeu o nome de
melhora drasticamente. liquidação de MLM sob relacionamento progressivamente exclusivo
O segundo marco foi o uso de estimativas Bayesianas empíricas de parâmetros SUPERIOR), o que garante que, no máximo, apenas um marcador associado
populacionais como variâncias genéticas e residuais ou sua razão. Este método é selecionado de cada bin [27]. Além disso, o parentesco muda
baseia-se no de acordo com marcadores de teste para eliminar a confusão entre parentesco e
suposição de que cada marcador de teste contribui apenas com uma pequena marcadores de teste. Os marcadores associados ao traço são excluídos do cálculo
proporção da variância genética total. Assim, os parâmetros populacionais de parentesco se também forem
para os marcadores de teste pode ser aproximado pelas estimativas associados aos marcadores de teste. Esta associação é determinada por LD no
a partir de um modelo reduzido sem ajustar cada marcador [20, 21]. Desenvolvido SUPER [27]. No FaST-LMM-Select, o
independentemente por dois grupos diferentes, este algoritmo marcadores são removidos se estiverem no mesmo fragmento (dentro
tem dois nomes, parâmetros populacionais previamente determinados 1 Mb) como marcadores de teste [26].
(P3D) [21] e EMMA eXpedited (EMMAX) [20]. Inspirado no EMMA, O terceiro ajuste, conhecido como abordagem de modelo misto multilocus
EMMAx e P3D, um algoritmo exato, eficiente em todo o genoma (MLMM), aplica a eliminação do parentesco [28].
associação de modelo misto (GEMMA) [22], foi desenvolvida para derivar estimativas Além dos efeitos individuais aleatórios, esse ajuste também
de parâmetros populacionais para cada marcador de teste encaixa vários marcadores associados como efeito fixo no MLM para
com a mesma velocidade de computação que P3D e EMMAX. dividir a variância explicada pelo parentesco em uma regressão passo a passo
O terceiro marco foi o MLM comprimido (CMLM) que moda. A regressão progressiva para frente termina quando a variância explicada
agrupa indivíduos em grupos com base no parentesco [21]. A complexidade de pelo parentesco é próxima de zero. Os marcadores associados são re-selecionados
tempo de computação do MLM é a potência cúbica do número de equações. Agrupar por meio de regressão para trás. O conjunto final de
indivíduos em grupos reduz a marcadores associados, denominados pseudo QTNs, são ajustados como
número de equações do número de indivíduos para o covariáveis para testar os marcadores restantes com um modelo de efeito fixo
número de grupos. Consequentemente, o tempo de computação é drasticamente (FEM).
reduzido no CMLM. O agrupamento de indivíduos em grupos é realizado em um Recentemente, foi desenvolvido um quarto ajuste, denominado
modelo reduzido sem ajuste de marcadores de teste. O e unificação de probabilidade circulante de modelo aleatório (FarmCPU)
o agrupamento otimizado é usado para testar marcadores um de cada vez. O [29]. FarmCPU usa otimização REML para substituir o critério
vantagem de computação do CMLM é maior para conjuntos de dados com maiores que a variância explicada pelo parentesco é próxima de zero, o que pode
números de indivíduos. apenas arbitrariamente determinado. FarmCPU também adaptou o bin
O quarto marco foi um método chamado fatorado espectralmente abordagem do SUPER para selecionar pseudo QTNs. Todo o genoma
modelo linear misto transformado (FaST-LMM) [23], que usa um é igualmente dividido em um certo número de compartimentos, e apenas um
Machine Translated by Google
Huang et ai. 3
marcador significativo com o menor valor P de cada bin é selecionado como o Análise da curva característica de operação do receptor
pseudo QTN candidato. Esses pseudo candidatos
Usando genótipos reais de todas as cinco espécies, simulamos o
QTNs são determinados por um modelo de efeito aleatório (REM). Os pseudo
QTNs controlando os fenótipos em dois cenários. O primeiro cenário foi uma
QTNs podem ser classificados primeiro pelo valor P. Então, o melhor
combinações entre os diferentes bins e o número de pseudo QTNs podem ser situação que raramente, ou nunca, ocorre na prática—
todos os QTNs foram localizados aleatoriamente nos cromossomos sem
determinados pelo REM. Finalmente, os dois
sendo aglomerado. Nós o chamamos de cenário “sintético”. O segundo cenário
tipos de modelos (FEM e REM) são executados iterativamente até
era uma situação mais próxima da realidade – QTNs estavam agrupados em
nenhuma mudança ocorre na seleção de pseudo QTNs.
cromossomos. Cada dois QTNs estavam localizados dentro de 10
Apesar desses avanços valiosos, são necessárias ferramentas de computação
Kb um do outro. Chamamos isso de cenário “real”. Para cada ce
e métodos de análise mais inovadores. Por exemplo,
nario, examinamos o poder estatístico sob diferentes níveis de
embora FarmCPU aumente o poder estatístico em GWAS, seu REM
FDR e erro tipo I. FDR foi definido como a proporção de falsos
processo permanece computacionalmente exigente. Além disso, o
positivos entre o total de positivos. O erro tipo I foi
A abordagem bin do SUPER exige que todos os QTNs sejam distribuídos
derivado da distribuição empírica do valor P nulo de todos os compartimentos não
uniformemente por todo o genoma, o que raramente é verdade. Além disso,
QTN. A relação entre poder estatístico e FDR
apenas um QTN pode ser selecionado como covariável, mesmo que vários QTNs
ou o erro tipo I é descrito pelas curvas da característica de operação do receptor
estejam localizados no mesmo bin, o que limita estatísticas
(ROC) (Fig. 2 e Figs. Suplementares S8–S12). O
potência. Assim, ainda existe uma necessidade crítica de um método que possa
método com uma maior área sob a curva (AUC) é preferível sobre
aumentar a eficiência da computação e o poder estatístico.
o método com uma AUC menor. BLINK teve uma AUC maior do que
FarmCPU, BOLT-LMM [31] e PLINK para potência vs FDR e
Resultados poder vs erro tipo I; PLINK e BOLT-LMM tiveram uma AUC menor
do que FarmCPU e BLINK para ambas as comparações. Essa situação
Desenvolvemos um novo método estatístico inspirado neste
verdadeiro em todas as cinco espécies.
necessidade crítica e se baseia em nosso método anterior, FarmCPU. Dentro
Os critérios de seleção do modelo foram comparados entre BIC,
o novo método, usamos critérios de informação Bayesian (BIC) em
Critério de Informação Akaike [32] e BIC estendido [33] em todos
um FEM para substituir REML no REM e usamos informações de desequilíbrio de
cinco espécies examinadas. BIC superou os outros dois modelos
ligação para substituir o método bin. Como resultado, nós
critérios de seleção (Fig. Suplementar S13). A determinação
eliminaram completamente o REM computacionalmente caro
de dois marcadores em LD foi baseado nos valores absolutos de seus
e a exigência de que os QTNs sejam distribuídos uniformemente por todo o
Coeficiente de correlação de Pearson. BLINK escolheu 0,7 como padrão
genoma (Fig. 1). Chamamos o novo método de informação Bayesiana e maneira
valor baseado nas comparações de poder estatístico sob diferentes FDRs (Fig.
de chave aninhada iterativamente de desequilíbrio de ligação (BLINK). O método
S14 Suplementar).
BLINK é mais detalhado na seção de Métodos de Materiais.
Implementamos o algoritmo BLINK em dois pacotes de software estatístico; Associações e enriquecimento em fenótipos reais
um foi escrito em R e o outro em C. O R
O pacote foi projetado para a popularidade dos usuários do R. O pacote C foi Conduzimos GWAS no tempo de floração em milho usando os quatro
projetado para eficiência computacional. Nós nomeamos o métodos (BLINK, FarmCPU, BOLT-LMM e PLINK). PLINK exibiu valores de P
dois pacotes BLINK-R e BLINK-C, respectivamente. Os resultados fortemente inflados (Fig. 3). Por exemplo, dos 397.323
dos dois pacotes são idênticos (Fig. S15 Suplementar). SNPs em milho, PLINK identificou 48.194 (12%) SNPs com valores de P
A diferença é que BLINK-C é muito mais rápido que BLINK-R. Estar menor que o limiar de Bonferroni. Este resultado foi consistente com o resultado
porque a maioria das análises foram conduzidas pelo BLINK-C neste do painel de 282 associações de milho, onde
estudo, a seguir, simplificamos BLINK-C para BLINK, a menos que diferentes a incorporação da matriz de estrutura populacional (Q) não controlou a inflação
declaração. Comparamos a velocidade de computação e o poder estatístico do tão bem quanto o modelo Q + K (parentesco) [9]. Incluindo
BLINK com dois pacotes de software complementares, PLINK mais covariáveis como Componentes Principais (PCs) no PLINK reduziram o
[30] e FarmCPU [29]. PLINK foi escrito em C e implementa número de SNPs significativos (Fig. S17 Suplementar);
o método GLM, que tem o mínimo de complexidade teórica de tempo de no entanto, isso pode reduzir os verdadeiros positivos conforme documentado em
computação. FarmCPU foi escrito em R e implementa um estudo anterior sobre o aumento do número de PCs em GLM [29].
o algoritmo FarmCPU, que é superior ao GLM no que diz respeito Além da estrutura populacional, as relações enigmáticas
ao poder estatístico. entre os indivíduos também contribuiu para a inflação dos valores de P.
As comparações de poder estatístico foram baseadas em falsos positivos, Uma maneira de resolver o problema é remover os indivíduos relacionados. Com
verdadeiros positivos e poder estatístico em diferentes níveis um ponto de corte de parentesco de 0,5, o número de indivíduos
de taxa de falsa descoberta (FDR) e erro tipo I (Fig. 2). Reter foi reduzido dos 2.279 indivíduos originais para 1.218 indivíduos. Essa estratégia
a estrutura populacional real (Fig. Suplementar S1), usamos de poda não apenas reduziu o tamanho da amostra
fenótipos simulados a partir de genótipos reais que cobriam uma ampla e poder estatístico consequentemente, mas também reteve uma inflação
variedade de espécies, incluindo humanos, uma cultura (milho), um gado (suíno) substancial dos valores de P. Ainda havia 211 SNPs que passaram
e duas espécies modelo (Arabidopsis e camundongo). Além disso, realizamos o limite de 1% após a correção do teste múltiplo de Bonferroni. BOLT LMM,
estudos de associação sobre fenótipos reais FarmCPU e BLINK controlaram bem a inflação. Resultados
para avaliar a característica do tempo de floração em milho (Fig. 3). Enriquecimento da BLINK e FarmCPU indicaram que mais de 99,9% dos
foi realizado em um estudo diferente para comparar BLINK e Farm CPU (Fig. 4). Os SNPs não foram associados ao tempo de floração após os ajustes pelos SNPs
Fenótipos reais também foram analisados para cobrir uma ampla associados. BLINK, BOLT-LMM e Farm CPU tiveram um controle muito melhor
variedade de espécies (Figs Complementares. S4-S7), incluindo humanos, sobre a inflação dos valores de P em todo o
gado (porco) e duas espécies modelo (Arabidopsis e camundongo). genoma do que o GLM implementado no PLINK.
Finalmente, os dados reais de genótipo e fenótipo foram duplicados para Notavelmente, com aproximadamente o mesmo controle sobre a inflação dos valores de P ,
crie sinteticamente um grande conjunto de dados para comparar os tempos de BLINK identificou mais SNPs associados do que FarmCPU. A CPU do farm
computação observados de BLINK-C, BLINK-R, PLINK e FarmCPU (Fig. 5). identificou 14 SNPs que passaram no múltiplo de Bonferroni
Machine Translated by Google
Figura 1: Limitação da abordagem bin e solução proposta. Os QTNs raramente são distribuídos uniformemente por todo o genoma, conforme exigido pela abordagem bin usada no FarmCPU. O
marcador mais significativo de cada bin, indicado pelos círculos vermelhos e pretos preenchidos em (a) e (b), é selecionado como um pseudo QTN se ultrapassar um limite (linhas tracejadas nos
eixos verticais). Um pseudo QTN pode ser falso (círculo preto preenchido) se os compartimentos (separados pelas linhas verticais) forem muito pequenos (a) ou pode ser verdadeiro, mas não
selecionado (círculo aberto) se os compartimentos forem muito grandes (b), como ilustrado comparando os verdadeiros QTNs (triângulos vermelhos) posicionados ao longo do eixo horizontal em
(c). Nosso método alternativo é classificar os M polimorfismos de nucleotídeo único (SNPs) primeiro e filtrá-los se seus valores de P forem maiores que um limite (ÿ). Entre os m SNPs mantidos,
SNPs adicionais são removidos se sua correlação (r) com o primeiro SNP (S1 ÿ) for maior que um limiar (ÿ). Este processo é repetido para selecionar S2 ÿ, S3 ÿ,. . . , até que o último
selecionado
SNP St(d).
ÿ seja
À
medida que os t SNPs restantes são ordenados, ajustamos o primeiro k deles em um FEM (e) e examinamos a probabilidade logarítmica duas vezes negativa correspondente (-2LL) e BIC (f). À
medida que mais SNPs são ajustados, -2LL melhora continuamente (linha azul), enquanto o BIC reverte (linha vermelha) porque o BIC aplica uma penalidade com o aumento do número de SNPs.
O conjunto de k SNPs que fornecem o melhor BIC são usados como pseudo QTNs e ajustados como covariáveis em outro FEM para testar todos os SNPs, um (si) por vez, conforme descrito pelo
modelo conceitual (g). Este processo (dg) é iterado até que os pseudo QTNs permaneçam os mesmos. Chamamos essa solução alternativa de método de chaveta aninhada iterativamente de
informação Bayesiana e desequilíbrio de ligação (BLINK).
limiar de teste (ÿ = 0,01). Em contraste, o BLINK não apenas revelou 9 Kb upstream e downstream dos 1.003 genes. Essas regiões ocupavam
desses 14 SNPs, mas também identificou 40 loci adicionais que cerca de 3% do genoma do milho. A força do enriquecimento foi indicada
ultrapassaram o limiar de Bonferroni. Os SNPs significativos identificados pela diferença entre o número observado de loci genéticos atingindo as
por BLINK incluíram os SNPs que são 2 Kb de ZmCCT, 441 kb de ZCN8 e regiões gênicas do tempo de floração FOAM e o número esperado sob a
568 kb de Vgt1 – os três genes que foram previamente clonados (Fig. 3). hipótese nula de que os loci genéticos foram selecionados aleatoriamente.
Esses três genes também foram os Quantitative Trait Nucleotides (QTLs) As derivações detalhadas das distribuições nulas esperadas são ilustradas
detectados na população Nested Association Mapping (NAM) [34]. O na seção Métodos.
FarmCPU também identificou o SNP que está a 2 Kb de distância do
ZmCCT, mas não os outros dois SNPs próximos ao ZCN8 e Vgt1. Os SNPs Entre os nove loci associados identificados pelo BLINK, quatro estavam
detectados pelo FarmCPU estavam mais distantes de ZCN8 e VGT1 em localizados nas regiões do gene do tempo de floração. A chance de ter
comparação aos detectados pelo BLINK. Tanto o FarmCPU quanto o BLINK quatro ou mais sobreposições era menor que 1% se os nove loci fossem
detectaram alguns QTLs NAM, incluindo o 16º e 27º QTLs NAM. selecionados aleatoriamente. Os cinco loci genéticos exclusivos do
FarmCPU não foram enriquecidos, mas os 40 loci genéticos exclusivos do
Embora o NAM e a população que usamos neste estudo sejam BLINK foram significativamente enriquecidos. Entre esses 40 loci associados,
diferentes, eles estão fortemente conectados porque os pais do NAM fazem 8 foram localizados nas regiões do gene do tempo de floração. A chance de
parte da população que usamos. Essa relação poderia explicar parcialmente ter 8 ou mais sobreposições era inferior a 5% se esses 40 loci fossem
as sobreposições, e estávamos interessados em encontrar sobreposições selecionados aleatoriamente (Fig. 4).
entre as diferentes populações. Recentemente, uma população distintamente
maior, com 4.471 variedades crioulas, foi usada para dissecar a arquitetura
genética da época de floração do milho através do GWAS. Para distinguir Tempos teóricos de computação
genes para adaptação ambiental local, GWAS foi conduzido em conjunto
No PLINK, a análise de associação de marcadores M com covariáveis c em
com experimentos de campo controlados por meio de um projeto
uma amostra com N indivíduos leva um tempo total de computação de
experimental recém-desenvolvido chamado mapeamento de associação F-
c2MN. O termo quadrático vem do inverso da esquerda
one (FOAM) [35]. FOAM amostrado indivíduos e cruzou-os com um pequeno
lado da matriz de coeficientes. Ambos FarmCPU e BLINK
número de pais comuns para derivar famílias F1. O GWAS foi então usado
adicione no máximo t pseudo QTNs como covariáveis adicionais para
para avaliar a progênie F1 de vários ensaios e identificou 1.003 genes
controlar simultaneamente falsos positivos e reduzir falsos negativos. A
associados ao tempo de floração.
CPU do Farm realiza a seleção do modelo desses pseudo QTNs com um
procedimento REML no REM. O REM é resolvido para otimizar o tamanho
Os nove loci genéticos identificados por FarmCPU e BLINK e os 40 loci
do bin (b) e o número de pseudo-QTNs e para otimizar a razão de variância
genéticos identificados exclusivamente por BLINK foram significativamente
genética-residual com p iterações. O tempo de computação do FarmCPU é
enriquecidos nos 1.003 genes de tempo de floração identificados por FOAM.
tbp(c+t)2N para seleção de modelo e (c+t)2MN para testes de associação;
As regiões do gene do tempo de floração foram definidas como 50
o tempo total de computação é (M+tbp)(c+t)2N.
Machine Translated by Google
Huang et ai. 5
Figura 2: Poder estatístico e área sob a curva para detectar genes causais agrupados. O poder estatístico foi definido como a proporção de QTNs simulados detectados
a custo, definido pela taxa de descoberta falsa (FDR) ou erro tipo I. Os dois tipos de curvas de características de operação do receptor (ROC) são exibidos separadamente para FDR
(a) e erro tipo I (b). A área sob as curvas (AUCs) também é exibida separadamente para FDR (c) e erro tipo I (d). Quatro métodos GWAS (BLINK, FarmCPU, PLINK,
e BOLT-LMM) foram comparados com fenótipos simulados de genótipos reais em cinco espécies (humano, milho, Arabidopsis thaliana, camundongo e porco). O simulado
Os fenótipos apresentaram herdabilidade de 75%, controlada por 500 QTNs para humanos, 100 QTNs para milho e camundongo e 50 QTNs para Arabidopsis thaliana e porco. Esses QTNs
foram amostrados aleatoriamente dos SNPs disponíveis, com a restrição de que a cada dois QTNs fossem agrupados em uma distância de 300 Kb.
O tempo de computação é baseado no teste de marcadores M em uma amostra com N indivíduos. Todos os três métodos contêm covariáveis c comuns. FarmCPU e BLINK adicionam t pseudo
QTNs como covariáveis adicionais. FarmCPU examina t QTNs em b diferentes níveis de tamanho de compartimento e s diferentes níveis de números de compartimento. Usando o algoritmo EMMA, cada
O exame otimiza a proporção de variância genética-residual com iterações . BLINK seleciona t pseudo QTNs com um tempo de computação de (c+t)2N. BLINK também elimina
otimização no tamanho da caixa e na razão de variância genética-residual. Os números de covariáveis comuns (c), pseudo QTNs (t), níveis de tamanho do compartimento (b) e iterações (p)
são muito menores que M e N. Portanto, a complexidade do tempo de computação é MN em relação a O grande para todos os três métodos.
BLINK substituiu REM por FEM para a seleção do modelo de t Tempos de computação observados
pseudo QTN. Consequentemente, as iterações são eliminadas para
Comparamos a computação dos dois pacotes BLINK (C e R)
otimizar a razão de variância genética-residual. BLINK tem um
tempos para analisar grandes conjuntos de dados com PLINK [30] e FarmCPU
tempo de computação de (c+t)2N para selecionar pseudo QTNs. O total
[29] (Fig. 5). Os conjuntos de dados foram criados sinteticamente por
o tempo de computação para BLINK é (M+t)(c+t)2)N+(c+t)2N. O número
duplicando 8.800 indivíduos humanos genotipados com metade
de covariáveis comuns (c), pseudo QTNs (t), tamanhos de bin (b) e iterações (p)
milhões de SNPs. O maior conjunto de dados sintéticos continha um milhão de
são muito menores do que M e N. Esses escalares permanecem constantes
indivíduos. FarmCPU levou cerca de 4 horas para completar o
independentemente dos tamanhos M e N. Portanto, a complexidade do tempo de
análise em um conjunto de dados com cerca de 20.000 indivíduos. Durante aquele
computação é MN em relação ao grande O para todos os três
mesmo prazo, BLINK-R completou a análise em um conjunto de dados
métodos (PLINK, FarmCPU e BLINK) (Tabela 1).
com cerca de 50.000 indivíduos. O PLINK 1.9 analisou o maior
conjunto de dados (um milhão de indivíduos) em cerca de 7 horas, enquanto BLINK
Machine Translated by Google
Figura 3: GWAS do tempo de floração (dias até a seda) em milho. O desempenho de quatro métodos GWAS, BLINK, FarmCPU, BOLT-LMM e PLINK, são comparados. A população
incluiu 2.648 indivíduos genotipados com 397.323 SNPs, após a filtragem de SNPs com frequência alélica menor de 5% ou menos. Todos os métodos incluíram os dois primeiros
Componentes Principais (PCs) e seus produtos como covariáveis. Os nomes dos genes candidatos em tempo de floração e do mapeamento de associação aninhado (NAM)
Quantitative Trait Nucleotide (QTL) que são cercados por SNPs significativos são rotulados na parte superior, incluindo as distâncias entre SNPs significativos e genes candidatos/QTL NAM.
C só precisou de 3 horas. O BLINK-R foi cerca de três vezes mais rápido que os núcleos concluíram a análise em apenas 30 minutos em vez de 3 horas
o FarmCPU. BLINK-C foi cerca de 20 vezes mais rápido que BLINK com um único núcleo.
R. BLINK-C foi cerca de duas vezes mais rápido que PLINK 1.9. Esses
resultados sugerem que as plataformas e a codificação desempenharam um
papel importante na eficiência computacional para a implementação dos Discussão
mesmos algoritmos.
Inspirados pela necessidade crítica de eficiência computacional e poder
Entre os quatro pacotes comparados acima, o BLINK-C pode usar
estatístico na análise de big dataset e pelo método GWAS recentemente
totalmente a arquitetura de computador moderna com vários núcleos de
desenvolvido, FarmCPU, desenvolvemos um método mais rápido e poderoso.
unidade de processamento central para paralelização. Examinamos ainda
Ao substituir o REML no REM do FarmCPU pelo BIC em um FEM e ao
mais a eficiência do BLINK-C em sistemas de computador de múltiplos
substituir a abordagem bin por LD, obtivemos otimização em uma dimensão
núcleos. Testamos o BLINK-C em computadores com números de núcleo
(número de pseudo QTNs) em vez de duas dimensões (número de pseudo
variando de 2 a 12 em Linux e Mac (Tabela Suplementar S2). Os resultados
QTNs e tamanho do bin). A otimização da razão de variância genética-residual
mostraram que o tempo total de computação diminuiu linearmente com o
também foi eliminada substituindo REML por BIC, que resolve diretamente a
número de núcleos (Fig. 5). Para o conjunto de dados com cerca de um
variância residual sem iterações. Estes são
milhão de indivíduos e meio milhão de SNPs, um Mac Pro com 12
Machine Translated by Google
Huang et ai. 7
Figura 4: Enriquecimento de SNPs associados identificados por BLINK e FarmCPU. SNPs associados ao tempo de floração do milho foram identificados por BLINK e FarmCPU usando a
população de Ames contendo 2.279 linhas. Esses SNPs foram classificados como SNPs exclusivos da FarmCPU (5), SNPs comuns (9) e SNPs exclusivos do BLINK (40). O enriquecimento
foi realizado nos SNPs que se sobrepuseram (dentro de 50.000 pares de bases), com os 1.003 genes candidatos à floração identificados por uma população separada contendo 4.471
variedades (a). As distribuições de probabilidade nula são ilustradas como os histogramas de conjuntos amostrados aleatoriamente de 5, 9 e 40 SNPs sobrepostos do genoma do milho
(b). Os SNPs exclusivos da FarmCPU não foram enriquecidos. Os SNPs comuns e os SNPs únicos do BLINK foram significativamente enriquecidos. A probabilidade nula foi inferior a 1%
para amostragem aleatória de cinco SNPs com quatro ou mais sobrepostos com os 1.003 genes candidatos. Da mesma forma, a probabilidade nula foi inferior a 3% para amostragem
aleatória de 40 SNPs com 8 ou mais sobrepostos aos 1.003 genes candidatos.
Figura 5: Desempenho do BLINK em tempo de computação e paralelização. Os tempos de computação usando BLINK-C e BLINK-R são comparados com PLINK (versão 1.90) e FarmCPU
(a) em conjuntos de dados sintéticos com duplicação no conjunto de dados original contendo 8.800 indivíduos genotipados com meio milhão de marcadores. BLINK-C pode realizar
computação paralela usando vários núcleos de unidades de processamento central. Diferentes computadores em diferentes plataformas foram usados para avaliar a eficiência de
paralelização do BLINK-C (b). A eficiência é ilustrada como a razão entre o tempo de computação de um único núcleo e o tempo de computação de vários núcleos.
os testes não só reduziram o tempo de computação, mas também reduziram Substituição de REML por BIC
simultaneamente falsos positivos e falsos negativos.
Nos modelos FarmCPU e BLINK, os marcadores são testados um de cada
vez, com pseudo QTNs adicionados como covariáveis para controlar pos falsos
Machine Translated by Google
e reduzir falsos negativos. FarmCPU seleciona esses pseudo QTNs usando REM. otimizado. O primeiro FEM testa M marcadores genéticos, um de cada vez.
Pseudo QTNs são usados para derivar parentesco entre indivíduos. O modelo escolhe Pseudo QTNs são incluídos como covariáveis para controlar simultaneamente falsos
um conjunto de pseudo QTNs para derivar um parentesco que fornece a máxima positivos e reduzir falsos negativos. Especificamente, o primeiro FEM pode ser escrito
verossimilhança [29]. Como o FarmCPU não ganha parâmetros extras à medida que da seguinte forma:
mais pseudo QTNs são incluídos, a probabilidade não é penalizada por ter mais
pseudo QTNs. Em contraste, BLINK escolhe pseudo QTNs usando FEM. Quanto mais
yi = Sÿ i1b1 + Sÿ i2b2 + ... + Sÿ ikbk + Sijdj + ei (1)
pseudo-QTNs incluídos, maior a probabilidade. Portanto, uma penalidade, como BIC,
no número de parâmetros é necessária para identificar o conjunto de pseudo QTNs
que melhor controla os falsos positivos e reduz os falsos negativos. Tanto os dados
onde yi é a observação no i-ésimo indivíduo; Si1, Si2, ..., Sik
simulados quanto os dados reais demonstraram que a penalização do BIC funciona
são os genótipos de k pseudo QTNs, iniciados como um
bem. Ao usar conjuntamente o BIC e substituir a abordagem bin, o FEM da BLINK teve
conjunto vazio; b1, b2,QTNs;
dos pseudo ..., bk são
Sij éos
o efeitos
genótipocorrespondentes
do i-ésimo
um desempenho ainda melhor do que o REML no Farm indivíduo e j-ésimo marcador genético; dj é o efeito
correspondente do j-ésimo marcador genético; e ei é o resíduo
com distribuição com média zero e a . O objetivo principal do
CPU. 2 variância de ÿ ose primeiro FEM é calcular
O método FarmCPU utiliza bins como pseudo QTNs, de acordo com o método SUPER
GWAS [27, 29]. Tanto o número de compartimentos (pseudo QTNs) quanto o tamanho
dos compartimentos devem ser otimizados, além de otimizar a razão de variância yi = Sÿ i1b1 + Sÿ i2b2 + ... + Sÿ ikbk + ei (2)
genética-residual. BLINK por otimização de formulários em apenas uma dimensão
(número de pseudo QTNs). Um pseudo QTN representa um único SNP, não um bin.
As equações (1) e (2) diferem de duas maneiras. Primeiro, o termo marcador de
Múltiplos pseudo QTNs são aceitáveis independentemente da proximidade no genoma, teste no primeiro FEM é removido do segundo FEM; portanto, nenhum valor do
a menos que estejam em LD. Em contraste, com FarmCPU, apenas um pseudo QTN
marcador de teste P é emitido na equação (2).
pode ser selecionado se vários pseudo QTNs estiverem próximos o suficiente para cair
Em segundo lugar, o número de pseudo QTNs covariáveis é variado no segundo FEM
no mesmo bin. Na prática, os QTNs reais são geralmente agrupados, em vez de
para selecionar o conjunto ótimo do primeiro k de t pseudo QTNs. A otimização é
distribuídos uniformemente; assim, BLINK é
realizada usando BIC, que é o dobro da probabilidade logarítmica negativa mais a
penalidade no número de parâmetros, como segue:
mais robusto do que FarmCPU.
positivos do que o método GWAS desenvolvido mais recentemente, FarmCPU. BLINK eliminados se seus valores de P forem maiores que um limiar (correção de Bonferroni,
superou FarmCPU [29] e PLINK [30] em relação ao poder estatístico vs FDR e poder ÿ = 0,01). Dos m SNPs restantes, se sua correlação, r (correlação de Pearson), com o
estatístico vs erro tipo I. As análises de associação com BLINK identificaram mais loci primeiro SNP (S1 ÿ) for maior que um limiar (0,7), eles também são removidos. Este
genéticos, incluindo loci previamente validados por outros estudos, do que PLINK ou processo é repetido até que o último SNP, St ÿ, seja selecionado (Fig . 1). para
FarmCPU. Embora o BLINK tenha a mesma complexidade de tempo de computação selecionar S2 ÿ, S3 ÿ, . . . ,
que o PLINK e o FarmCPU, o BLINK-C não foi apenas mais rápido do que o FarmCPU, Como os t marcadores restantes são classificados e não altamente correlacionados
mas também mais rápido do que o PLINK 1.9 [36]. O BLINK-C pode analisar um entre si, o primeiro conjunto de k marcadores é mais crítico do que o segundo conjunto
conjunto de dados extremamente grande – um milhão de indivíduos e meio milhão de de k marcadores. Ajustamos os primeiros k marcadores na equação (2) e variamos k
marcadores – em 3 horas com um único núcleo ou em 30 minutos com 12 núcleos. até que todas as possibilidades sejam examinadas. O conjunto de k marcadores com
o melhor BIC é usado como o conjunto de pseudo QTNs na equação (1). Este processo
é repetido até que os pseudo QTNs permaneçam os mesmos. Denominamos esta
solução alternativa como o método de chaveta aninhada iterativamente de informação
Bayesiana e desequilíbrio de ligação (BLINK).
Materiais e métodos
Procedimento BLINK Dados de genótipo e fenótipo
O método BLINK conduz dois FEMs e um processo de filtragem, que seleciona um Usamos exatamente os mesmos conjuntos de dados que usamos em nossa
conjunto de pseudo QTNs que não estão em LD entre si como covariáveis. A sequência publicação anterior para o método FarmCPU. Esses conjuntos de dados cobriram cinco
inteira é executada repetidamente até que todos os marcadores genéticos sejam espécies incluindo Arabidopsis thaliana [10], humano [5], milho [37], camundongo [38]
testados e a seleção de pseudo QTNs seja e porco [39]. Marcadores com uma frequência alélica menor
Machine Translated by Google
Huang et ai. 9
O conjunto de dados humano foi duplicado sinteticamente para avaliar a Disponibilidade de código-fonte e requisitos
eficiência da computação em conjuntos de dados de grande escala. O conjunto
de dados humanos continha cerca de meio milhão (629.968) SNPs e 8.807 Nome do projeto: BLINK
indivíduos. Os indivíduos foram selecionados aleatoriamente para ampliar o Página inicial do projeto: http://zzlab.net/blink
tamanho da amostra para 10.000, 20.000, 50.000, 100.000, 200.000, 500.000 e Repositório do GitHub: https://github.com/Menggg/BLINK Sistemas
1.000.000. O número de SNPs permaneceu o mesmo, em aproximadamente operacionais: Mac OS e Linux Linguagem de programação: C, R e
meio milhão. A função de criar conjuntos de dados sintéticos foi adicionada ao OpenCL Licença: GNU General Public License versão 3.0.
Huang et ai. 11
espessura (porco), (b) câncer de pulmão (humano), (c) intercepção de crescimento Financiamento
de peso (camundongo) e (d) tempo de floração (Arabidopsis). Os valores P
Este material é baseado em trabalho que é apoiado por uma Subvenção Competitiva
são exibidos como –log10(valor P).
Interna de Questões de Pesquisa Emergentes do Centro de Pesquisa Agrícola da
Figura S16. Instantâneo de parcelas de Manhattan selecionadas aleatoriamente
Faculdade de Agricultura, Humanidade e
de 100 repetições. As parcelas de Manhattan foram baseadas na
Ciências dos Recursos Naturais na Washington State University; a
Valores P usando BLINK em fenótipos simulados a partir de reais
Comissão de Grãos de Washington (doação e prêmio 126593);
genótipos em cinco espécies (humano, milho, Arabidopsis thaliana,
a National Science Foundation (prêmio DBI 1661348); o Instituto Nacional de
rato e porco). Os fenótipos simulados tiveram uma herdabilidade
Alimentação e Agricultura; e o USDA (prêmios
de 75%, controlado por 500 QTNs para humanos, 100 QTNs para milho
2018–70005-28792 e 2016–68004-24770).
e camundongo, e 50 QTNs para Arabidopsis thaliana e porco. Esses
QTNs com pontos e círculos cinzas foram amostrados aleatoriamente de
o polimorfismo de nucleotídeo único (SNPs) disponível com o Contribuições do autor
restrição de que cada dois QTNs fossem agrupados dentro de 100 Kb
distância. As linhas verdes indicaram o teste múltiplo de Bonferroni ZZ concebeu o estudo e redigiu o manuscrito. O
limite. conceitos foram implementados por MH em linguagem C (BLINK-C)
Figura S17. Efeitos do número de componentes principais (PCs) e por YZ em linguagem R (BLINK-R). MH, XL, YZ e RMS
e poda de parentesco. A instalação de dois PCs e seus produtos teve realizou as análises de dados.
15. Price AL, Zaitlen NA, Reich D, et al. Novas abordagens para a 32. Akaike H. Um novo olhar sobre a identificação do modelo estatístico.
estratificação populacional em estudos de associação genômica ampla. IEEE Trans Automat Contr 1974;19:716–23.
Nat Rev Genet 2010;11:459–63. 16. de los Campos G, Gianola D, Allison 33. Chen J, Chen Z. Critérios de informação Bayesianos estendidos para
DB. Prevendo a predisposição genética em humanos: a promessa de seleção de modelos com grandes espaços de modelo. Biometrika
marcadores de genoma completo. Nat Rev Genet 2010;11:880–6. 2008;95:759–71.
34. Buckler ES, Holanda JB, Bradbury PJ, et al. A arquitetura genética da
17. Meuwissen TH, Hayes BJ, Goddard ME. Previsão do valor genético total época de floração do milho. Ciência 2009;325:714–8.
˜
usando mapas de marcadores densos em todo o genoma. Genética 35. Romero Navarro JA, Willcox M, Burgueno J, et al. Um estudo da
2001;157:1819–29 . diversidade alélica subjacente à adaptação ao tempo de floração em
18. Loh P, Tucker G, Bulik-Sullivan BK, et al. A análise eficiente do modelo variedades crioulas de milho. Nat Genet 2017;49:476–80.
misto Bayesiano aumenta o poder de associação em grandes coortes. 36. Chang CC, Chow CC, Tellier LCAM, et al. PLINK de segunda geração:
Nat Genet 2014;47:284–90. enfrentando o desafio de conjuntos de dados maiores e mais ricos.
19. Kang HM, Zaitlen NA, Wade CM, et al. Controle eficiente da estrutura GigaScience 2015;4:7.
populacional no mapeamento de associação de organismo modelo. 37. Romay MC, Millard MJ, Glaubitz JC, et al. Genotipagem abrangente do
Genética 2008;178:1709–23. banco nacional de sementes de milho dos EUA.
20. Kang HM, Sul JH, Service SK, et al. Modelo de componente de variância Genoma Biol 2013;14:R55.
para explicar a estrutura da amostra em estudos de associação de todo 38. Neves HHR, Carvalheiro R, Queiroz SA. Uma comparação de métodos
o genoma. Nat Genet 2010;42:348–54. estatísticos para seleção genômica em uma população de camundongos.
21. Zhang Z, Ersoz E, Lai CQ, et al. Abordagem de modelo linear misto BMC Genet 2012;13:100.
adaptado para estudos de associação de todo o genoma. Nat Genet 39. Fan B, Onteru SK, Du ZQ, et al. Estudo de associação de todo o genoma
2010;42:355–60. identifica loci para composição corporal e características estruturais de
22. Zhou X, Stephens M. Análise de modelo misto eficiente em todo o genoma solidez em suínos. PLoS One 2011;6:e0014726.
para estudos de associação. Nat Genet 2012;44:821–4. 40. Tang Y, Liu X, Wang J et al. GAPIT Versão 2: Uma ferramenta integrada
23. Lippert C, Listgarten J, Liu Y, et al. Modelos mistos lineares FaST para aprimorada para associação e previsão genômica. Plant Genoma 2016;9,
estudos de associação de todo o genoma. Métodos Nat 2011;8:833–5. 1–9.
41. Lipka AE, Tian F, Wang Q et al. GAPIT: Ferramenta integrada de
24. Svishcheva GR, Axenovich TI, Belonogova NM, et al. Método baseado associação e predição de genoma. Bioinformática 2012;28:2397–
9.
em componentes de variância rápida para análise de associação de
genoma inteiro. Nat Genet 2012;44:1166–70. 42. Projeto Panzea, data de adesão: 29 de agosto de 2014, URL do tipo
25. Li M, Liu X, Bradbury P, et al. Enriquecimento do poder estatístico para geno: http://cbsusrv04.tc.cornell.edu/users/panzea/filegatew ay.aspx?
estudos de associação do genoma. BMC Biol 2014;12:73. category=Genotypes.
26. Listgarten J, Lippert C, Kadie CM, et al. Modelos mistos lineares 43. Projeto Panzea, data de adesão: 29 de agosto de 2014, URL do tipo de
aprimorados para estudos de associação de todo o genoma. Métodos fenótipo: https://www.panzea.org/phenotypes.
Nat 2012;9:525–6. 44. O banco de dados de genótipos e fenótipos (dbGAP) no centro nacional
27. Wang Q, Tian F, Pan Y, et al. Um método super poderoso para estudo de de informações sobre biotecnologia (NCBI), data de acesso: 2 de agosto
associação ampla do genoma. PLoS One 2014;9:e107684. de 2015, URL: http://www.ncbi.nlm.nih.gov/p rojects/gap /cgi-bin/study.cgi?
´
28. Segura V, Vilhjalmsson BJ, Platt A, et al. Uma abordagem de modelo id do estudo =phs000716.v1.p1.
misto multilocus eficiente para estudos de associação de todo o genoma 45. Gramen: Um recurso para genômica comparativa de gramíneas, data de
em populações estruturadas. Nat Genet 2012;44:825–30. acessão: 9 de dezembro de 2013, URL: http://archive.gramene.org/di
29. Liu X, Huang M, Fan B, et al. Uso iterativo de modelos de efeitos fixos e versity/download data.html.
aleatórios para estudos de associação de todo o genoma poderosos e 46. Código R de criação de conjuntos de dados de genótipos sintéticos para
eficientes. PLoS Genet 2016;12:e1005767. testes de velocidade, data de acesso: 28 de setembro de 2018, URL:
30. Purcell S, Neale B, Todd-Brown K, et al. PLINK: um conjunto de https://github.com/Menggg/BLINK/blob/master/synthetic genótipo data.R.
ferramentas para a associação de todo o genoma e análises de ligação 47. Huang M, Liu X, Zhou Y, et al. Dados de suporte para “BLINK: um pacote
com base na população. Am J Hum Genet 2007;81:559–75. para o próximo nível de estudos de associação de todo o genoma com
indivíduos e marcadores nos milhões”.
31. Loh P, Tucker G, Bulik-Sullivan BK, et al. A análise eficiente do modelo
misto Bayesiano aumenta o poder de associação em grandes coortes. Banco de dados GigaScience 2018. http://dx.doi.org/10.5524/10053 6.
Nat Genet 2014;47:284–90.