Você está na página 1de 12

Machine Translated by Google

GigaScience, 8, 2018, 1–12

doi: 10.1093/gigascience/giy154
Acesso Antecipado Data de Publicação: 11 de dezembro
de 2018 Nota Técnica

NOTA TÉCNICA

BLINK: um pacote para o próximo nível de estudos


de associação de todo o genoma com indivíduos e marcadore
nos milhões
Meng Huang 1, Xiaolei Liu2, Yao Zhou1, Ryan M. Summers3
e Zhiwu Zhang 1,*
1Department of Crop and Soil Sciences, Washington State University, 1170 NE Stadium Way, Pullman,
Washington, 99164-6420, EUA, 2Key Laboratory of Agricultural Animal Genetics, Breeding and Reproduction,
Ministério da Educação, Faculdade de Ciência e Tecnologia Animal, Universidade Agrícola Huazhong, 1
Rua Shizishan, Wuhan, Hubei, 430070, China e 3School of Electrical Engineering and Computer Science,
Washington State University, 355 NE Spokane Street, Pullman, Washington, 99164-2752, EUA
ÿEndereço para correspondência. Zhiwu Zhang, Jonhson Hall 105, Departamento de Culturas e Ciências do Solo, Washington State University, 1170 NE Stadium Way,
Pullman, Washington, 99164-6420, EUA. E-mail: zhiwu.zhang@wsu.edu http://orcid.org/0000-0002-5784-9684

Abstrato

Grandes conjuntos de dados, acumulados de estudos biomédicos e agronômicos, fornecem o potencial para identificar genes que
controlam doenças humanas complexas e características agrícolas importantes por meio de estudos de associação genômica ampla
(GWAS). No entanto, grandes conjuntos de dados também levam a desafios computacionais extremos, especialmente quando modelos
estatísticos sofisticados são empregados para reduzir simultaneamente falsos positivos e falsos negativos. O recém-desenvolvido método de
unificação de probabilidade circulante de modelo fixo e aleatório (FarmCPU) usa um método bin sob a suposição de que os nucleotídeos de
características quantitativas (QTNs) são distribuídos uniformemente por todo o genoma. Os QTNs estimados são usados para separar um
modelo linear misto em um modelo de efeito fixo computacionalmente eficiente (FEM) e um modelo de efeito aleatório computacionalmente
caro (REM), que são então usados iterativamente. Para eliminar completamente o REM computacionalmente caro, substituímos REM por
FEM usando critérios de informação Bayesianos. Para eliminar a exigência de que os QTNs sejam distribuídos uniformemente por todo o
genoma, substituímos o método bin por informações de desequilíbrio de ligação. O novo método é chamado de Bayesian-information and
Linkage-disequilibrium Iteratively Nested Keyway (BLINK). As análises de dados reais e simulados demonstraram que o BLINK melhora o
poder estatístico em comparação com o FarmCPU, além de reduzir notavelmente o tempo de computação. Agora, um conjunto de dados com
um milhão de indivíduos e meio milhão de marcadores pode ser analisado em três horas, em vez de uma semana usando
FarmCPU.

Palavras-chave: GWAS; grandes conjuntos de dados; traços complexos; FarmCPU

Introdução traços culturalmente importantes [3-5]. No entanto, uma proporção substancial


dessas descobertas foram falsos positivos, atribuídos a uma falha em considerar
As inovações biomédicas ultrapassaram as inovações de computação desde a
a estrutura populacional e as relações enigmáticas entre os indivíduos nas
conclusão do projeto genoma humano [1, 2].
análises [6-8]. Incorporando a estrutura populacional e as relações enigmáticas
Estudos de associação genômica ampla (GWAS) identificaram muitos loci
como covariáveis dramáticas
genéticos que supostamente controlam algumas doenças humanas e agropecuárias.

Recebido: 24 de janeiro de 2018; Revisado: 18 de junho de 2018; Aceito: 27 de


novembro de 2018 C O(s) autor(es) 2018. Publicado pela Oxford University Press. Este é um artigo de Acesso Aberto distribuído sob os termos da Licença Creative
Commons Attribution (http://creativecommons.org/licenses/by/4.0/), que permite a reutilização, distribuição e reprodução irrestrita em qualquer meio, desde que o
trabalho original seja devidamente citado.

1
Machine Translated by Google

2 Método GWAS PISCANDO

reduz os falsos positivos, mas também causa falsos negativos e parentesco de grau reduzido. Em vez de usar todos os marcadores disponíveis,
cargas computacionais [9-11]. um subconjunto de marcadores genéticos, menor que o número de indivíduos na
A estrutura populacional é tipicamente incorporada como um efeito fixo amostra, é usado para criar o parentesco com classificação reduzida.
no modelo linear geral (GLM), que é computacionalmente eficiente. Inicialmente, a Além disso, o FaST-LMM usa diretamente este subconjunto de marcadores para
estrutura populacional foi derivada como as proporções de indivíduos pertencentes definir as relações entre os indivíduos para otimização ML ou REML sem primeiro
a subpopulações [12, 13]. Várias alternativas para definir a estrutura populacional, calcular o parentesco. Como resultado, o tempo de computação é linear ao tamanho
como análise de componentes principais (PCA) [14, 15], foram desenvolvidas para da amostra.
melhorar ainda mais a eficiência computacional. A estrutura da população O quinto marco foi GRAMMAR (associação de todo o genoma usando modelos
mistos lineares e logísticos e regressão)-
e PCA são eficientes para incorporar efeitos de subpopulação, mas não são capazes Gamma [24], um método que divide a análise de associação em
de modelar a relação críptica entre dois passos. A primeira etapa usa MLM para derivar os resíduos. O
indivíduos dentro de subpopulações. Incorporando ambos os efeitos A segunda etapa testa os resíduos como traços transformados em um
de sup-populações e relacionamento enigmático entre indivíduos modelo de efeito e aplica um fator de correção para testar valores estatísticos. A
reduz ainda mais os falsos positivos e aumenta o poder estatístico complexidade computacional da segunda etapa é linear para
[9]. Relacionamentos enigmáticos podem ser incorporados de duas maneiras. Um o número de indivíduos.

maneira é incluir todos os marcadores genéticos como efeitos aleatórios. Algum Com exceção do CMLM, o objetivo principal do acima
desses marcadores capturam os efeitos de nucleotídeos de traços quantitativos marcos foi melhorar a velocidade de computação. A estatística
(QTNs) através do desequilíbrio de ligação (LD) [16-18]. poder de cada um desses marcos permanece semelhante ao MLM convencional [9]
A outra maneira é primeiro derivar parentesco entre indivíduos usando porque o mesmo parentesco ou similar é usado
todos os marcadores genéticos. O parentesco é posteriormente usado para definir independentemente das características que estão sendo analisadas. A CMLM, por outro lado,
a estrutura de variância de efeitos individuais como efeitos aleatórios. representou o primeiro ajuste de parentesco para melhorar o poder estatístico [21].
Neste último, tanto a estrutura populacional quanto o parentesco podem ser No MLM, os efeitos genéticos dos indivíduos no MLM convencional são substituídos
incorporados em um efeito fixo e um efeito aleatório misto linear. pelos efeitos genéticos de seus grupos de parentesco correspondentes, ou seja, o
modelo (MLM) [9]. No entanto, o cálculo do MLM é intensivo. Assim, vários métodos parentesco entre indivíduos é substituído pelo parentesco entre grupos. Além disso,
têm sido desenvolvidos para reduzir o ajuste
os tempos de computação de MLM. sobre parentesco é otimizado para os traços particulares que estão sendo estudados.
O primeiro marco que reduziu essa carga computacional foi o desenvolvimento Por exemplo, o parentesco com o melhor ML ou REML é usado para
da associação de modelos mistos eficientes (EMMA) [19]. Antes dos métodos marcadores de teste. Outras otimizações também foram desenvolvidas para definir
EMMA, a máxima probabilidade o parentesco mínimo e máximo do grupo, além de
(ML) ou máxima verossimilhança restrita (REML) realizou uma otimização parentesco médio [25].
bidimensional da variância genética e da variância residual usando métodos como O segundo ajuste para melhorar o poder estatístico emprega
expectativa e maximização (EM). Usando EMMA, ML ou REML é uma função da parentesco que não é apenas específico para traços, mas também específico para
razão marcadores de teste [26, 27]. O parentesco é construído usando apenas os
entre variância genética e variância residual. Ao reduzir o marcadores associados a uma característica. Porque vários associados
otimização de duas dimensões (variância genética e variação residual) para uma marcadores podem ser ligados geneticamente, um procedimento de bin foi
dimensão (razão de variação genética-residual), a velocidade de computação desenvolvido para remover essa redundância. O procedimento recebeu o nome de
melhora drasticamente. liquidação de MLM sob relacionamento progressivamente exclusivo
O segundo marco foi o uso de estimativas Bayesianas empíricas de parâmetros SUPERIOR), o que garante que, no máximo, apenas um marcador associado
populacionais como variâncias genéticas e residuais ou sua razão. Este método é selecionado de cada bin [27]. Além disso, o parentesco muda
baseia-se no de acordo com marcadores de teste para eliminar a confusão entre parentesco e
suposição de que cada marcador de teste contribui apenas com uma pequena marcadores de teste. Os marcadores associados ao traço são excluídos do cálculo
proporção da variância genética total. Assim, os parâmetros populacionais de parentesco se também forem
para os marcadores de teste pode ser aproximado pelas estimativas associados aos marcadores de teste. Esta associação é determinada por LD no
a partir de um modelo reduzido sem ajustar cada marcador [20, 21]. Desenvolvido SUPER [27]. No FaST-LMM-Select, o
independentemente por dois grupos diferentes, este algoritmo marcadores são removidos se estiverem no mesmo fragmento (dentro
tem dois nomes, parâmetros populacionais previamente determinados 1 Mb) como marcadores de teste [26].
(P3D) [21] e EMMA eXpedited (EMMAX) [20]. Inspirado no EMMA, O terceiro ajuste, conhecido como abordagem de modelo misto multilocus
EMMAx e P3D, um algoritmo exato, eficiente em todo o genoma (MLMM), aplica a eliminação do parentesco [28].
associação de modelo misto (GEMMA) [22], foi desenvolvida para derivar estimativas Além dos efeitos individuais aleatórios, esse ajuste também
de parâmetros populacionais para cada marcador de teste encaixa vários marcadores associados como efeito fixo no MLM para
com a mesma velocidade de computação que P3D e EMMAX. dividir a variância explicada pelo parentesco em uma regressão passo a passo
O terceiro marco foi o MLM comprimido (CMLM) que moda. A regressão progressiva para frente termina quando a variância explicada
agrupa indivíduos em grupos com base no parentesco [21]. A complexidade de pelo parentesco é próxima de zero. Os marcadores associados são re-selecionados
tempo de computação do MLM é a potência cúbica do número de equações. Agrupar por meio de regressão para trás. O conjunto final de
indivíduos em grupos reduz a marcadores associados, denominados pseudo QTNs, são ajustados como
número de equações do número de indivíduos para o covariáveis para testar os marcadores restantes com um modelo de efeito fixo
número de grupos. Consequentemente, o tempo de computação é drasticamente (FEM).
reduzido no CMLM. O agrupamento de indivíduos em grupos é realizado em um Recentemente, foi desenvolvido um quarto ajuste, denominado
modelo reduzido sem ajuste de marcadores de teste. O e unificação de probabilidade circulante de modelo aleatório (FarmCPU)
o agrupamento otimizado é usado para testar marcadores um de cada vez. O [29]. FarmCPU usa otimização REML para substituir o critério
vantagem de computação do CMLM é maior para conjuntos de dados com maiores que a variância explicada pelo parentesco é próxima de zero, o que pode
números de indivíduos. apenas arbitrariamente determinado. FarmCPU também adaptou o bin
O quarto marco foi um método chamado fatorado espectralmente abordagem do SUPER para selecionar pseudo QTNs. Todo o genoma
modelo linear misto transformado (FaST-LMM) [23], que usa um é igualmente dividido em um certo número de compartimentos, e apenas um
Machine Translated by Google

Huang et ai. 3

marcador significativo com o menor valor P de cada bin é selecionado como o Análise da curva característica de operação do receptor
pseudo QTN candidato. Esses pseudo candidatos
Usando genótipos reais de todas as cinco espécies, simulamos o
QTNs são determinados por um modelo de efeito aleatório (REM). Os pseudo
QTNs controlando os fenótipos em dois cenários. O primeiro cenário foi uma
QTNs podem ser classificados primeiro pelo valor P. Então, o melhor
combinações entre os diferentes bins e o número de pseudo QTNs podem ser situação que raramente, ou nunca, ocorre na prática—
todos os QTNs foram localizados aleatoriamente nos cromossomos sem
determinados pelo REM. Finalmente, os dois
sendo aglomerado. Nós o chamamos de cenário “sintético”. O segundo cenário
tipos de modelos (FEM e REM) são executados iterativamente até
era uma situação mais próxima da realidade – QTNs estavam agrupados em
nenhuma mudança ocorre na seleção de pseudo QTNs.
cromossomos. Cada dois QTNs estavam localizados dentro de 10
Apesar desses avanços valiosos, são necessárias ferramentas de computação
Kb um do outro. Chamamos isso de cenário “real”. Para cada ce
e métodos de análise mais inovadores. Por exemplo,
nario, examinamos o poder estatístico sob diferentes níveis de
embora FarmCPU aumente o poder estatístico em GWAS, seu REM
FDR e erro tipo I. FDR foi definido como a proporção de falsos
processo permanece computacionalmente exigente. Além disso, o
positivos entre o total de positivos. O erro tipo I foi
A abordagem bin do SUPER exige que todos os QTNs sejam distribuídos
derivado da distribuição empírica do valor P nulo de todos os compartimentos não
uniformemente por todo o genoma, o que raramente é verdade. Além disso,
QTN. A relação entre poder estatístico e FDR
apenas um QTN pode ser selecionado como covariável, mesmo que vários QTNs
ou o erro tipo I é descrito pelas curvas da característica de operação do receptor
estejam localizados no mesmo bin, o que limita estatísticas
(ROC) (Fig. 2 e Figs. Suplementares S8–S12). O
potência. Assim, ainda existe uma necessidade crítica de um método que possa
método com uma maior área sob a curva (AUC) é preferível sobre
aumentar a eficiência da computação e o poder estatístico.
o método com uma AUC menor. BLINK teve uma AUC maior do que
FarmCPU, BOLT-LMM [31] e PLINK para potência vs FDR e
Resultados poder vs erro tipo I; PLINK e BOLT-LMM tiveram uma AUC menor
do que FarmCPU e BLINK para ambas as comparações. Essa situação
Desenvolvemos um novo método estatístico inspirado neste
verdadeiro em todas as cinco espécies.
necessidade crítica e se baseia em nosso método anterior, FarmCPU. Dentro
Os critérios de seleção do modelo foram comparados entre BIC,
o novo método, usamos critérios de informação Bayesian (BIC) em
Critério de Informação Akaike [32] e BIC estendido [33] em todos
um FEM para substituir REML no REM e usamos informações de desequilíbrio de
cinco espécies examinadas. BIC superou os outros dois modelos
ligação para substituir o método bin. Como resultado, nós
critérios de seleção (Fig. Suplementar S13). A determinação
eliminaram completamente o REM computacionalmente caro
de dois marcadores em LD foi baseado nos valores absolutos de seus
e a exigência de que os QTNs sejam distribuídos uniformemente por todo o
Coeficiente de correlação de Pearson. BLINK escolheu 0,7 como padrão
genoma (Fig. 1). Chamamos o novo método de informação Bayesiana e maneira
valor baseado nas comparações de poder estatístico sob diferentes FDRs (Fig.
de chave aninhada iterativamente de desequilíbrio de ligação (BLINK). O método
S14 Suplementar).
BLINK é mais detalhado na seção de Métodos de Materiais.

Implementamos o algoritmo BLINK em dois pacotes de software estatístico; Associações e enriquecimento em fenótipos reais
um foi escrito em R e o outro em C. O R
O pacote foi projetado para a popularidade dos usuários do R. O pacote C foi Conduzimos GWAS no tempo de floração em milho usando os quatro
projetado para eficiência computacional. Nós nomeamos o métodos (BLINK, FarmCPU, BOLT-LMM e PLINK). PLINK exibiu valores de P
dois pacotes BLINK-R e BLINK-C, respectivamente. Os resultados fortemente inflados (Fig. 3). Por exemplo, dos 397.323
dos dois pacotes são idênticos (Fig. S15 Suplementar). SNPs em milho, PLINK identificou 48.194 (12%) SNPs com valores de P
A diferença é que BLINK-C é muito mais rápido que BLINK-R. Estar menor que o limiar de Bonferroni. Este resultado foi consistente com o resultado

porque a maioria das análises foram conduzidas pelo BLINK-C neste do painel de 282 associações de milho, onde
estudo, a seguir, simplificamos BLINK-C para BLINK, a menos que diferentes a incorporação da matriz de estrutura populacional (Q) não controlou a inflação
declaração. Comparamos a velocidade de computação e o poder estatístico do tão bem quanto o modelo Q + K (parentesco) [9]. Incluindo
BLINK com dois pacotes de software complementares, PLINK mais covariáveis como Componentes Principais (PCs) no PLINK reduziram o
[30] e FarmCPU [29]. PLINK foi escrito em C e implementa número de SNPs significativos (Fig. S17 Suplementar);
o método GLM, que tem o mínimo de complexidade teórica de tempo de no entanto, isso pode reduzir os verdadeiros positivos conforme documentado em
computação. FarmCPU foi escrito em R e implementa um estudo anterior sobre o aumento do número de PCs em GLM [29].
o algoritmo FarmCPU, que é superior ao GLM no que diz respeito Além da estrutura populacional, as relações enigmáticas
ao poder estatístico. entre os indivíduos também contribuiu para a inflação dos valores de P.
As comparações de poder estatístico foram baseadas em falsos positivos, Uma maneira de resolver o problema é remover os indivíduos relacionados. Com
verdadeiros positivos e poder estatístico em diferentes níveis um ponto de corte de parentesco de 0,5, o número de indivíduos
de taxa de falsa descoberta (FDR) e erro tipo I (Fig. 2). Reter foi reduzido dos 2.279 indivíduos originais para 1.218 indivíduos. Essa estratégia
a estrutura populacional real (Fig. Suplementar S1), usamos de poda não apenas reduziu o tamanho da amostra
fenótipos simulados a partir de genótipos reais que cobriam uma ampla e poder estatístico consequentemente, mas também reteve uma inflação
variedade de espécies, incluindo humanos, uma cultura (milho), um gado (suíno) substancial dos valores de P. Ainda havia 211 SNPs que passaram
e duas espécies modelo (Arabidopsis e camundongo). Além disso, realizamos o limite de 1% após a correção do teste múltiplo de Bonferroni. BOLT LMM,
estudos de associação sobre fenótipos reais FarmCPU e BLINK controlaram bem a inflação. Resultados
para avaliar a característica do tempo de floração em milho (Fig. 3). Enriquecimento da BLINK e FarmCPU indicaram que mais de 99,9% dos
foi realizado em um estudo diferente para comparar BLINK e Farm CPU (Fig. 4). Os SNPs não foram associados ao tempo de floração após os ajustes pelos SNPs
Fenótipos reais também foram analisados para cobrir uma ampla associados. BLINK, BOLT-LMM e Farm CPU tiveram um controle muito melhor
variedade de espécies (Figs Complementares. S4-S7), incluindo humanos, sobre a inflação dos valores de P em todo o

gado (porco) e duas espécies modelo (Arabidopsis e camundongo). genoma do que o GLM implementado no PLINK.
Finalmente, os dados reais de genótipo e fenótipo foram duplicados para Notavelmente, com aproximadamente o mesmo controle sobre a inflação dos valores de P ,

crie sinteticamente um grande conjunto de dados para comparar os tempos de BLINK identificou mais SNPs associados do que FarmCPU. A CPU do farm

computação observados de BLINK-C, BLINK-R, PLINK e FarmCPU (Fig. 5). identificou 14 SNPs que passaram no múltiplo de Bonferroni
Machine Translated by Google

4 Método GWAS PISCANDO

Figura 1: Limitação da abordagem bin e solução proposta. Os QTNs raramente são distribuídos uniformemente por todo o genoma, conforme exigido pela abordagem bin usada no FarmCPU. O
marcador mais significativo de cada bin, indicado pelos círculos vermelhos e pretos preenchidos em (a) e (b), é selecionado como um pseudo QTN se ultrapassar um limite (linhas tracejadas nos
eixos verticais). Um pseudo QTN pode ser falso (círculo preto preenchido) se os compartimentos (separados pelas linhas verticais) forem muito pequenos (a) ou pode ser verdadeiro, mas não
selecionado (círculo aberto) se os compartimentos forem muito grandes (b), como ilustrado comparando os verdadeiros QTNs (triângulos vermelhos) posicionados ao longo do eixo horizontal em
(c). Nosso método alternativo é classificar os M polimorfismos de nucleotídeo único (SNPs) primeiro e filtrá-los se seus valores de P forem maiores que um limite (ÿ). Entre os m SNPs mantidos,
SNPs adicionais são removidos se sua correlação (r) com o primeiro SNP (S1 ÿ) for maior que um limiar (ÿ). Este processo é repetido para selecionar S2 ÿ, S3 ÿ,. . . , até que o último
selecionado
SNP St(d).
ÿ seja
À
medida que os t SNPs restantes são ordenados, ajustamos o primeiro k deles em um FEM (e) e examinamos a probabilidade logarítmica duas vezes negativa correspondente (-2LL) e BIC (f). À
medida que mais SNPs são ajustados, -2LL melhora continuamente (linha azul), enquanto o BIC reverte (linha vermelha) porque o BIC aplica uma penalidade com o aumento do número de SNPs.
O conjunto de k SNPs que fornecem o melhor BIC são usados como pseudo QTNs e ajustados como covariáveis em outro FEM para testar todos os SNPs, um (si) por vez, conforme descrito pelo
modelo conceitual (g). Este processo (dg) é iterado até que os pseudo QTNs permaneçam os mesmos. Chamamos essa solução alternativa de método de chaveta aninhada iterativamente de
informação Bayesiana e desequilíbrio de ligação (BLINK).

limiar de teste (ÿ = 0,01). Em contraste, o BLINK não apenas revelou 9 Kb upstream e downstream dos 1.003 genes. Essas regiões ocupavam
desses 14 SNPs, mas também identificou 40 loci adicionais que cerca de 3% do genoma do milho. A força do enriquecimento foi indicada
ultrapassaram o limiar de Bonferroni. Os SNPs significativos identificados pela diferença entre o número observado de loci genéticos atingindo as
por BLINK incluíram os SNPs que são 2 Kb de ZmCCT, 441 kb de ZCN8 e regiões gênicas do tempo de floração FOAM e o número esperado sob a
568 kb de Vgt1 – os três genes que foram previamente clonados (Fig. 3). hipótese nula de que os loci genéticos foram selecionados aleatoriamente.
Esses três genes também foram os Quantitative Trait Nucleotides (QTLs) As derivações detalhadas das distribuições nulas esperadas são ilustradas
detectados na população Nested Association Mapping (NAM) [34]. O na seção Métodos.
FarmCPU também identificou o SNP que está a 2 Kb de distância do
ZmCCT, mas não os outros dois SNPs próximos ao ZCN8 e Vgt1. Os SNPs Entre os nove loci associados identificados pelo BLINK, quatro estavam
detectados pelo FarmCPU estavam mais distantes de ZCN8 e VGT1 em localizados nas regiões do gene do tempo de floração. A chance de ter
comparação aos detectados pelo BLINK. Tanto o FarmCPU quanto o BLINK quatro ou mais sobreposições era menor que 1% se os nove loci fossem
detectaram alguns QTLs NAM, incluindo o 16º e 27º QTLs NAM. selecionados aleatoriamente. Os cinco loci genéticos exclusivos do
FarmCPU não foram enriquecidos, mas os 40 loci genéticos exclusivos do
Embora o NAM e a população que usamos neste estudo sejam BLINK foram significativamente enriquecidos. Entre esses 40 loci associados,
diferentes, eles estão fortemente conectados porque os pais do NAM fazem 8 foram localizados nas regiões do gene do tempo de floração. A chance de
parte da população que usamos. Essa relação poderia explicar parcialmente ter 8 ou mais sobreposições era inferior a 5% se esses 40 loci fossem
as sobreposições, e estávamos interessados em encontrar sobreposições selecionados aleatoriamente (Fig. 4).
entre as diferentes populações. Recentemente, uma população distintamente
maior, com 4.471 variedades crioulas, foi usada para dissecar a arquitetura
genética da época de floração do milho através do GWAS. Para distinguir Tempos teóricos de computação
genes para adaptação ambiental local, GWAS foi conduzido em conjunto
No PLINK, a análise de associação de marcadores M com covariáveis c em
com experimentos de campo controlados por meio de um projeto
uma amostra com N indivíduos leva um tempo total de computação de
experimental recém-desenvolvido chamado mapeamento de associação F-
c2MN. O termo quadrático vem do inverso da esquerda
one (FOAM) [35]. FOAM amostrado indivíduos e cruzou-os com um pequeno
lado da matriz de coeficientes. Ambos FarmCPU e BLINK
número de pais comuns para derivar famílias F1. O GWAS foi então usado
adicione no máximo t pseudo QTNs como covariáveis adicionais para
para avaliar a progênie F1 de vários ensaios e identificou 1.003 genes
controlar simultaneamente falsos positivos e reduzir falsos negativos. A
associados ao tempo de floração.
CPU do Farm realiza a seleção do modelo desses pseudo QTNs com um
procedimento REML no REM. O REM é resolvido para otimizar o tamanho
Os nove loci genéticos identificados por FarmCPU e BLINK e os 40 loci
do bin (b) e o número de pseudo-QTNs e para otimizar a razão de variância
genéticos identificados exclusivamente por BLINK foram significativamente
genética-residual com p iterações. O tempo de computação do FarmCPU é
enriquecidos nos 1.003 genes de tempo de floração identificados por FOAM.
tbp(c+t)2N para seleção de modelo e (c+t)2MN para testes de associação;
As regiões do gene do tempo de floração foram definidas como 50
o tempo total de computação é (M+tbp)(c+t)2N.
Machine Translated by Google

Huang et ai. 5

Figura 2: Poder estatístico e área sob a curva para detectar genes causais agrupados. O poder estatístico foi definido como a proporção de QTNs simulados detectados
a custo, definido pela taxa de descoberta falsa (FDR) ou erro tipo I. Os dois tipos de curvas de características de operação do receptor (ROC) são exibidos separadamente para FDR
(a) e erro tipo I (b). A área sob as curvas (AUCs) também é exibida separadamente para FDR (c) e erro tipo I (d). Quatro métodos GWAS (BLINK, FarmCPU, PLINK,
e BOLT-LMM) foram comparados com fenótipos simulados de genótipos reais em cinco espécies (humano, milho, Arabidopsis thaliana, camundongo e porco). O simulado
Os fenótipos apresentaram herdabilidade de 75%, controlada por 500 QTNs para humanos, 100 QTNs para milho e camundongo e 50 QTNs para Arabidopsis thaliana e porco. Esses QTNs
foram amostrados aleatoriamente dos SNPs disponíveis, com a restrição de que a cada dois QTNs fossem agrupados em uma distância de 300 Kb.

Tabela 1: Complexidade de tempo de computação do BLINK em comparação com PLINK e FarmCPU

Método Seleção de modelo Teste de associação Total Complexidade sobre M e N

PLINK N/D c2MN c2MN O(MN)


FarmCPU bsp(c+t)2N (c+t)2MN (M+bsp)(c+t)2N O(MN)
PISCAR t(c+t)2N+(c+t)2N (c+t)2MN (M+t)(c+t)2N + (c+t)2N O(MN)

O tempo de computação é baseado no teste de marcadores M em uma amostra com N indivíduos. Todos os três métodos contêm covariáveis c comuns. FarmCPU e BLINK adicionam t pseudo
QTNs como covariáveis adicionais. FarmCPU examina t QTNs em b diferentes níveis de tamanho de compartimento e s diferentes níveis de números de compartimento. Usando o algoritmo EMMA, cada
O exame otimiza a proporção de variância genética-residual com iterações . BLINK seleciona t pseudo QTNs com um tempo de computação de (c+t)2N. BLINK também elimina
otimização no tamanho da caixa e na razão de variância genética-residual. Os números de covariáveis comuns (c), pseudo QTNs (t), níveis de tamanho do compartimento (b) e iterações (p)
são muito menores que M e N. Portanto, a complexidade do tempo de computação é MN em relação a O grande para todos os três métodos.

BLINK substituiu REM por FEM para a seleção do modelo de t Tempos de computação observados
pseudo QTN. Consequentemente, as iterações são eliminadas para
Comparamos a computação dos dois pacotes BLINK (C e R)
otimizar a razão de variância genética-residual. BLINK tem um
tempos para analisar grandes conjuntos de dados com PLINK [30] e FarmCPU
tempo de computação de (c+t)2N para selecionar pseudo QTNs. O total
[29] (Fig. 5). Os conjuntos de dados foram criados sinteticamente por
o tempo de computação para BLINK é (M+t)(c+t)2)N+(c+t)2N. O número
duplicando 8.800 indivíduos humanos genotipados com metade
de covariáveis comuns (c), pseudo QTNs (t), tamanhos de bin (b) e iterações (p)
milhões de SNPs. O maior conjunto de dados sintéticos continha um milhão de
são muito menores do que M e N. Esses escalares permanecem constantes
indivíduos. FarmCPU levou cerca de 4 horas para completar o
independentemente dos tamanhos M e N. Portanto, a complexidade do tempo de
análise em um conjunto de dados com cerca de 20.000 indivíduos. Durante aquele
computação é MN em relação ao grande O para todos os três
mesmo prazo, BLINK-R completou a análise em um conjunto de dados
métodos (PLINK, FarmCPU e BLINK) (Tabela 1).
com cerca de 50.000 indivíduos. O PLINK 1.9 analisou o maior
conjunto de dados (um milhão de indivíduos) em cerca de 7 horas, enquanto BLINK
Machine Translated by Google

6 Método GWAS PISCANDO

Figura 3: GWAS do tempo de floração (dias até a seda) em milho. O desempenho de quatro métodos GWAS, BLINK, FarmCPU, BOLT-LMM e PLINK, são comparados. A população
incluiu 2.648 indivíduos genotipados com 397.323 SNPs, após a filtragem de SNPs com frequência alélica menor de 5% ou menos. Todos os métodos incluíram os dois primeiros
Componentes Principais (PCs) e seus produtos como covariáveis. Os nomes dos genes candidatos em tempo de floração e do mapeamento de associação aninhado (NAM)
Quantitative Trait Nucleotide (QTL) que são cercados por SNPs significativos são rotulados na parte superior, incluindo as distâncias entre SNPs significativos e genes candidatos/QTL NAM.

C só precisou de 3 horas. O BLINK-R foi cerca de três vezes mais rápido que os núcleos concluíram a análise em apenas 30 minutos em vez de 3 horas
o FarmCPU. BLINK-C foi cerca de 20 vezes mais rápido que BLINK com um único núcleo.
R. BLINK-C foi cerca de duas vezes mais rápido que PLINK 1.9. Esses
resultados sugerem que as plataformas e a codificação desempenharam um
papel importante na eficiência computacional para a implementação dos Discussão
mesmos algoritmos.
Inspirados pela necessidade crítica de eficiência computacional e poder
Entre os quatro pacotes comparados acima, o BLINK-C pode usar
estatístico na análise de big dataset e pelo método GWAS recentemente
totalmente a arquitetura de computador moderna com vários núcleos de
desenvolvido, FarmCPU, desenvolvemos um método mais rápido e poderoso.
unidade de processamento central para paralelização. Examinamos ainda
Ao substituir o REML no REM do FarmCPU pelo BIC em um FEM e ao
mais a eficiência do BLINK-C em sistemas de computador de múltiplos
substituir a abordagem bin por LD, obtivemos otimização em uma dimensão
núcleos. Testamos o BLINK-C em computadores com números de núcleo
(número de pseudo QTNs) em vez de duas dimensões (número de pseudo
variando de 2 a 12 em Linux e Mac (Tabela Suplementar S2). Os resultados
QTNs e tamanho do bin). A otimização da razão de variância genética-residual
mostraram que o tempo total de computação diminuiu linearmente com o
também foi eliminada substituindo REML por BIC, que resolve diretamente a
número de núcleos (Fig. 5). Para o conjunto de dados com cerca de um
variância residual sem iterações. Estes são
milhão de indivíduos e meio milhão de SNPs, um Mac Pro com 12
Machine Translated by Google

Huang et ai. 7

Figura 4: Enriquecimento de SNPs associados identificados por BLINK e FarmCPU. SNPs associados ao tempo de floração do milho foram identificados por BLINK e FarmCPU usando a
população de Ames contendo 2.279 linhas. Esses SNPs foram classificados como SNPs exclusivos da FarmCPU (5), SNPs comuns (9) e SNPs exclusivos do BLINK (40). O enriquecimento
foi realizado nos SNPs que se sobrepuseram (dentro de 50.000 pares de bases), com os 1.003 genes candidatos à floração identificados por uma população separada contendo 4.471
variedades (a). As distribuições de probabilidade nula são ilustradas como os histogramas de conjuntos amostrados aleatoriamente de 5, 9 e 40 SNPs sobrepostos do genoma do milho
(b). Os SNPs exclusivos da FarmCPU não foram enriquecidos. Os SNPs comuns e os SNPs únicos do BLINK foram significativamente enriquecidos. A probabilidade nula foi inferior a 1%
para amostragem aleatória de cinco SNPs com quatro ou mais sobrepostos com os 1.003 genes candidatos. Da mesma forma, a probabilidade nula foi inferior a 3% para amostragem
aleatória de 40 SNPs com 8 ou mais sobrepostos aos 1.003 genes candidatos.

Figura 5: Desempenho do BLINK em tempo de computação e paralelização. Os tempos de computação usando BLINK-C e BLINK-R são comparados com PLINK (versão 1.90) e FarmCPU
(a) em conjuntos de dados sintéticos com duplicação no conjunto de dados original contendo 8.800 indivíduos genotipados com meio milhão de marcadores. BLINK-C pode realizar
computação paralela usando vários núcleos de unidades de processamento central. Diferentes computadores em diferentes plataformas foram usados para avaliar a eficiência de
paralelização do BLINK-C (b). A eficiência é ilustrada como a razão entre o tempo de computação de um único núcleo e o tempo de computação de vários núcleos.

os testes não só reduziram o tempo de computação, mas também reduziram Substituição de REML por BIC
simultaneamente falsos positivos e falsos negativos.
Nos modelos FarmCPU e BLINK, os marcadores são testados um de cada
vez, com pseudo QTNs adicionados como covariáveis para controlar pos falsos
Machine Translated by Google

8 Método GWAS BLINK

e reduzir falsos negativos. FarmCPU seleciona esses pseudo QTNs usando REM. otimizado. O primeiro FEM testa M marcadores genéticos, um de cada vez.
Pseudo QTNs são usados para derivar parentesco entre indivíduos. O modelo escolhe Pseudo QTNs são incluídos como covariáveis para controlar simultaneamente falsos
um conjunto de pseudo QTNs para derivar um parentesco que fornece a máxima positivos e reduzir falsos negativos. Especificamente, o primeiro FEM pode ser escrito
verossimilhança [29]. Como o FarmCPU não ganha parâmetros extras à medida que da seguinte forma:

mais pseudo QTNs são incluídos, a probabilidade não é penalizada por ter mais
pseudo QTNs. Em contraste, BLINK escolhe pseudo QTNs usando FEM. Quanto mais
yi = Sÿ i1b1 + Sÿ i2b2 + ... + Sÿ ikbk + Sijdj + ei (1)
pseudo-QTNs incluídos, maior a probabilidade. Portanto, uma penalidade, como BIC,
no número de parâmetros é necessária para identificar o conjunto de pseudo QTNs
que melhor controla os falsos positivos e reduz os falsos negativos. Tanto os dados
onde yi é a observação no i-ésimo indivíduo; Si1, Si2, ..., Sik
simulados quanto os dados reais demonstraram que a penalização do BIC funciona
são os genótipos de k pseudo QTNs, iniciados como um
bem. Ao usar conjuntamente o BIC e substituir a abordagem bin, o FEM da BLINK teve
conjunto vazio; b1, b2,QTNs;
dos pseudo ..., bk são
Sij éos
o efeitos
genótipocorrespondentes
do i-ésimo
um desempenho ainda melhor do que o REML no Farm indivíduo e j-ésimo marcador genético; dj é o efeito
correspondente do j-ésimo marcador genético; e ei é o resíduo
com distribuição com média zero e a . O objetivo principal do
CPU. 2 variância de ÿ ose primeiro FEM é calcular

valores de P para todos os marcadores de teste M.


O segundo FEM é empregado para otimizar a seleção de pseudo QTNs.
Robustez com arquitetura genética Especificamente, o segundo FEM pode ser escrito como segue
pontos baixos:

O método FarmCPU utiliza bins como pseudo QTNs, de acordo com o método SUPER
GWAS [27, 29]. Tanto o número de compartimentos (pseudo QTNs) quanto o tamanho
dos compartimentos devem ser otimizados, além de otimizar a razão de variância yi = Sÿ i1b1 + Sÿ i2b2 + ... + Sÿ ikbk + ei (2)
genética-residual. BLINK por otimização de formulários em apenas uma dimensão
(número de pseudo QTNs). Um pseudo QTN representa um único SNP, não um bin.
As equações (1) e (2) diferem de duas maneiras. Primeiro, o termo marcador de
Múltiplos pseudo QTNs são aceitáveis independentemente da proximidade no genoma, teste no primeiro FEM é removido do segundo FEM; portanto, nenhum valor do
a menos que estejam em LD. Em contraste, com FarmCPU, apenas um pseudo QTN
marcador de teste P é emitido na equação (2).
pode ser selecionado se vários pseudo QTNs estiverem próximos o suficiente para cair
Em segundo lugar, o número de pseudo QTNs covariáveis é variado no segundo FEM
no mesmo bin. Na prática, os QTNs reais são geralmente agrupados, em vez de
para selecionar o conjunto ótimo do primeiro k de t pseudo QTNs. A otimização é
distribuídos uniformemente; assim, BLINK é
realizada usando BIC, que é o dobro da probabilidade logarítmica negativa mais a
penalidade no número de parâmetros, como segue:
mais robusto do que FarmCPU.

Otimização da seleção de modelos BIC = ÿ2LL + 2kLn (n) (3)

A seleção de pseudo QTNs é influenciada pelo limiar que determina se um par de


SNPs é altamente correlacionado. A configuração padrão atual usada em BLINK-C e onde LL é o log da probabilidade, k é o número de pseudo QTNs, Ln é o logaritmo
BLINK-R é 70% (coeficiente de correlação Pearson). Avaliamos todas as configurações natural e n é o número de indivíduos. Os pseudo QTNs disponíveis, t, são classificados
padrão do BLINK em todas as cinco populações (Figs Complementares S13 e S14). com o mais significativo no início e o menos significativo no final. Os primeiros k pseudo
Embora essas configurações padrão funcionem bem, diferentes critérios e/ou métodos QTNs são selecionados para exame, com k variando de 1
podem melhorar ainda mais a otimização para espécies e/ou conjuntos de dados
específicos – um tópico que permanece aberto a pesquisas futuras. para t.

Todos os marcadores na equação (1) são candidatos a pseudo QTNs na equação


(2). Esses marcadores são filtrados com dois critérios: valor P e correlação. Todos os
No entanto, BLINK produziu menos falsos positivos e identificou mais verdadeiros marcadores são ordenados primeiro e depois fil

positivos do que o método GWAS desenvolvido mais recentemente, FarmCPU. BLINK eliminados se seus valores de P forem maiores que um limiar (correção de Bonferroni,
superou FarmCPU [29] e PLINK [30] em relação ao poder estatístico vs FDR e poder ÿ = 0,01). Dos m SNPs restantes, se sua correlação, r (correlação de Pearson), com o
estatístico vs erro tipo I. As análises de associação com BLINK identificaram mais loci primeiro SNP (S1 ÿ) for maior que um limiar (0,7), eles também são removidos. Este
genéticos, incluindo loci previamente validados por outros estudos, do que PLINK ou processo é repetido até que o último SNP, St ÿ, seja selecionado (Fig . 1). para
FarmCPU. Embora o BLINK tenha a mesma complexidade de tempo de computação selecionar S2 ÿ, S3 ÿ, . . . ,
que o PLINK e o FarmCPU, o BLINK-C não foi apenas mais rápido do que o FarmCPU, Como os t marcadores restantes são classificados e não altamente correlacionados
mas também mais rápido do que o PLINK 1.9 [36]. O BLINK-C pode analisar um entre si, o primeiro conjunto de k marcadores é mais crítico do que o segundo conjunto
conjunto de dados extremamente grande – um milhão de indivíduos e meio milhão de de k marcadores. Ajustamos os primeiros k marcadores na equação (2) e variamos k

marcadores – em 3 horas com um único núcleo ou em 30 minutos com 12 núcleos. até que todas as possibilidades sejam examinadas. O conjunto de k marcadores com
o melhor BIC é usado como o conjunto de pseudo QTNs na equação (1). Este processo
é repetido até que os pseudo QTNs permaneçam os mesmos. Denominamos esta
solução alternativa como o método de chaveta aninhada iterativamente de informação
Bayesiana e desequilíbrio de ligação (BLINK).

Materiais e métodos
Procedimento BLINK Dados de genótipo e fenótipo

O método BLINK conduz dois FEMs e um processo de filtragem, que seleciona um Usamos exatamente os mesmos conjuntos de dados que usamos em nossa
conjunto de pseudo QTNs que não estão em LD entre si como covariáveis. A sequência publicação anterior para o método FarmCPU. Esses conjuntos de dados cobriram cinco

inteira é executada repetidamente até que todos os marcadores genéticos sejam espécies incluindo Arabidopsis thaliana [10], humano [5], milho [37], camundongo [38]
testados e a seleção de pseudo QTNs seja e porco [39]. Marcadores com uma frequência alélica menor
Machine Translated by Google

Huang et ai. 9

de 5% ou menos foram filtrados dos conjuntos de dados originais. O Fenótipos simulados


número de indivíduos e marcadores e traços são resumidos em
Os genótipos reais das cinco espécies foram usados para simular fenótipos
Tabela Suplementar S1. Os componentes principais foram calculados pelo
para examinar o poder estatístico sob diferentes níveis de erro tipo I e FDR. Os
PLINK usando todos os SNPs. Os gráficos de Manhattan dos resultados GWAS
fenótipos simulados tiveram uma herdabilidade de 75%, controlada por um
foram desenhados usando GAPIT [40, 41].
número variável de QTNs que foram amostrados de todos os SNPs reais. Dois
No conjunto de dados de milho [37], todas as amostras eram linhagens
cenários, com e sem restrição, foram aplicados à amostragem de SNPs. A
puras da Estação de Introdução de Plantas do Departamento de Agricultura dos
restrição era que um QTN deveria estar a uma distância de 300 Kb de outro
EUA (USDA) em Ames, Iowa. Um total de 2.279 linhagens endogâmicas
QTN.
compuseram este conjunto de dados, cada linha com 681.258 SNPs. O fenótipo
Os QTNs tiveram efeitos que seguiram uma distribuição normal. Esses QTNs
real de todas as amostras do conjunto de dados foi o tempo de floração, que foi
foram somados como o efeito genético aditivo total para cada indivíduo, de
medido em dias até o florescimento. Ambos os genótipos (ZeaGBSv1.0) e
acordo com seu genótipo real. A variância do efeito genético aditivo foi calculada
fenótipos (fenótipos de coleção consanguínea do USDA Ames) foram baixados
em todos os indivíduos. Um efeito residual normalmente distribuído foi atribuído
do Panzea [42, 43].
a cada indivíduo. A variância do efeito residual foi atribuída de acordo, de modo
O conjunto de dados humano foi obtido de dbGaP [5]. O nome desse
que a proporção de variância genética aditiva igualasse a herdabilidade. Os
conjunto de dados é “Conjunto de dados de câncer de pulmão do Leste
genomas foram divididos em diferentes tamanhos de bin (1 bp, 1 KB e 100 KB).
Asiático” (ID # phs000716.v1.p1). Respeitando a privacidade e as intenções dos
Os bins foram classificados como bins QTN se contivessem pelo menos um
participantes da pesquisa, este conjunto de dados está disponível apenas sob a
QTN, caso contrário, como bins não-QTN. O valor P de um bin foi representado
permissão dos Institutos Nacionais de Saúde e do Instituto Nacional do Câncer
pelo SNP mais significativo no bin.
Intramural. O conjunto de dados inclui 8.807 amostras, que foram coletadas da
China, Coréia e Japão. Essas amostras, cada uma com 629.968 SNPs, foram
O poder estatístico foi definido como a proporção de QTNs detectados para
envolvidas em nossos testes de eficiência computacional [44].
cada nível diferente de FDR. O erro tipo I foi derivado da distribuição nula
empírica de bins não QTN.
Usamos dois conjuntos de dados de Arabidopsis thaliana [10]. O conjunto
de dados maior, contendo 1.179 indivíduos que foram genotipados com 214.545
SNPs, foi usado para nossos testes de simulação de potência e FDR ([45];
Energia, erro tipo I e FDR
Conjunto de dados: 2010 project 250K SNP chip genótipos v3.04). O conjunto
de dados menor com 199 indivíduos foi usado para os testes GWAS de Os números de falsos e verdadeiros positivos foram contados com base em
característica real (conjunto de dados: Atwell et. Al, Nature junho 2010; Fenótipo: bins, conforme descrito em nosso estudo anterior [29]. O tamanho do
tempo de floração a 16ÿC). compartimento foi variado, variando de um único par de bases a um mega pares
O conjunto de dados de camundongos [38], contendo 1.940 amostras (1.000 de bases. Relatamos os resultados do uso de diferentes tamanhos de
machos e 940 fêmeas) com 12.226 SNPs, veio de uma população heterogênea compartimentos (1 bp, 1 KB e 100 KB). O valor P de um bin foi representado
de camundongos pertencentes ao Wellcome Trust Centre for Human Genetics por seu SNP mais significativo. Um compartimento foi considerado um
(Universidade de Oxford, Reino Unido). Usamos os dados do fenótipo de compartimento QTN se contivesse pelo menos um QTN, caso contrário, um
inclinação de crescimento em nossos testes de associação de características reais. compartimento não QTN. Um bin não-QTN com um valor P que ultrapassou um
O conjunto de dados de genótipos de porcos [39] incluiu 820 indivíduos (412 limite foi contado como um bin falso-positivo. Um bin QTN com um valor P que
Large White e 408 cruzamentos de Large White e Landrace) com 64.212 SNPs. ultrapassou o mesmo limiar foi contado como um bin verdadeiro positivo. A
Usamos os dados do fenótipo da espessura do toucinho da última costela em proporção de QTNs identificados sob diferentes limiares foi calculada como estatística
nossos testes de associação de características reais. poder cal. Para todos os níveis de poder estatístico, a proporção de bins não-
A estrutura populacional desses cinco conjuntos de dados de teste foi QTN foi calculada como FDR. O erro tipo I foi derivado da distribuição nula
identificada usando os dois primeiros PCs na Fig. S1 Suplementar. As empírica de todos os compartimentos não QTN. Além disso, curvas ROC foram
distribuições de fenótipos foram ilustradas como gráficos de dispersão, gráficos usadas para comparar o poder estatístico sob diferentes níveis de FDR e erro
de histograma e gráficos de caixa na Fig. S2 suplementar. tipo I. A AUC foi calculada com um ponto inicial de zero e um ponto final de um
para FDR ou erro tipo I.

Dados sintéticos e avaliação de velocidade de computação

O conjunto de dados humano foi duplicado sinteticamente para avaliar a Disponibilidade de código-fonte e requisitos
eficiência da computação em conjuntos de dados de grande escala. O conjunto
de dados humanos continha cerca de meio milhão (629.968) SNPs e 8.807 Nome do projeto: BLINK

indivíduos. Os indivíduos foram selecionados aleatoriamente para ampliar o Página inicial do projeto: http://zzlab.net/blink

tamanho da amostra para 10.000, 20.000, 50.000, 100.000, 200.000, 500.000 e Repositório do GitHub: https://github.com/Menggg/BLINK Sistemas

1.000.000. O número de SNPs permaneceu o mesmo, em aproximadamente operacionais: Mac OS e Linux Linguagem de programação: C, R e

meio milhão. A função de criar conjuntos de dados sintéticos foi adicionada ao OpenCL Licença: GNU General Public License versão 3.0.

BLINK para permitir que um usuário gere o conjunto de dados sintético. O


código de demonstração do R é ilustrado no GitHub [46] para explicar como RRID: SCR 016288
usar os dados de demonstração do BLINK para gerar o conjunto de dados
sintético.
As comparações de velocidade de computação entre BLINK, FarmCPU e Disponibilidade de dados de suporte
PLINK 1.9 foram realizadas no mesmo computador. O desempenho da Os URLs de download dos conjuntos de dados públicos usados neste estudo
computação paralela foi testado em computadores com diferentes sistemas estão disponíveis na seção Materiais e Métodos. Dados de genótipo e
operacionais e configurações de máquina (Tabela Suplementar S2). instantâneos do código também estão disponíveis no repositório GigaScience
GigaDB [47].
Os scripts de código R usados para gerar dados de teste durante este estudo
estão disponíveis no GitHub, https://github.com/Menggg/BLINK
Machine Translated by Google

10 Método GWAS BLINK

Arquivos adicionais (PigQTLdb, URL: http://www.animalgenome.org/cgi-bin/QTLdb/SS/index ).

Tabela S1. Propriedades de genótipos reais e parâmetros de simulação de


Figura S8. Gráfico ROC da Fig. 2 com tamanho de janela de 1 KB para contar
fenótipos.
falsos e verdadeiros positivos. O número de falsos e verdadeiros positivos foi
Tabela S2. As informações do sistema operacional e da máquina contado com base em compartimentos de 1 KB.
configuração de computadores para avaliação de velocidade de computação.
Figura S9. Gráfico ROC da Fig. 2 com tamanho de janela de 1 pb para contar
Tabela S3. A comparação de linhas de comando entre BLINK e PLINK.
falsos e verdadeiros positivos. O número de falsos e verdadeiros positivos foi
contado com base em compartimentos de 1 pb.
Figura S1. Estrutura populacional revelada pelos três primeiros componentes
Figura S10. Poder estatístico e área sob a curva para detectar genes causais
principais. Os componentes principais (CP) foram derivados de todos os
não agrupados. O poder estatístico foi definido como a proporção de QTNs
marcadores disponíveis em cada uma das cinco espécies.
simulados detectados ao custo definido pela Taxa de Falsos Positivos (FDR) ou
A relação de pares é exibida na coluna da esquerda (PC1 vs.
pelo erro Tipo I. Os dois tipos de curvas ROC são exibidos separadamente para
PC2), coluna do meio (PC1 vs. PC3) e coluna da direita (PC2 vs.
FDR (a) e erro Tipo I (b).
PC3).
A AUC também é exibida separadamente para FDR (c) e versus erro Tipo I (d).
Figura S2. A distribuição de dados de fenótipos reais em milho, Arabidopsis
Quatro métodos GWAS (BLINK, FarmCPU, BOLT-LMM e PLINK) foram
thaliana, camundongo e porco.
comparados com fenótipos simulados de genótipos reais em cinco espécies
Figura S3. Proporção de casos e controles para câncer de pulmão. O conjunto
(humano, milho, Arabidopsis thaliana, camundongo e porco). Os fenótipos
de dados continha um total de 8.807 amostras, incluindo 4.962 casos de câncer
simulados apresentaram herdabilidade de 75%, controlados por 500 QTNs para
de pulmão e 3.845 controles.
humanos, 100 QTNs para milho e camundongo e 50 QTNs para Arabidopsis
Figura S4. Estudos de associação do tempo de floração em Arabidop sis
thaliana e porco. Esses QTNs foram amostrados aleatoriamente dos SNPs
thaliana. Quatro métodos GWAS foram usados, GLM (realizado por PLINK), BOLT-
disponíveis sem restrição. O número de falsos e verdadeiros positivos foi contado
LMM, FarmCPU e BLINK. O tempo de floração a 16ÿC foi medido em 193
com base em compartimentos de 10 KB.
indivíduos de Arabidopsis thaliana, genotipados com 216.131 SNPs. O GLM
incluiu os três primeiros PCs como covariáveis para controlar a estrutura
Figura S11. Gráfico ROC da Fig. S10 com tamanho de janela de 1 KB para
populacional. Os nomes dos genes candidatos ao tempo de floração com SNPs
contar falsos e verdadeiros positivos. O número de falsos e verdadeiros positivos
significativos próximos foram marcados no gráfico BLINK. As distâncias entre foi contado com base em compartimentos de 1 KB.
SNPs significativos e genes candidatos também foram marcadas. Todas as
Figura S12. Gráfico ROC da Fig. S10 com tamanho de janela de 1 pb para
informações dos genes candidatos vieram do The Arabidopsis Information
contar falsos e verdadeiros positivos. O número de falsos e verdadeiros positivos
Resource (http://www.arabidopsis.org/index.jsp).
foi contado com base em caixas de 1 pb.
Figura S13. O desempenho de três critérios de seleção de modelos. Os três
Figura S5. Estudos de associação de câncer de pulmão em humanos. Foram
critérios de seleção do modelo são Critério de Informação Bayesiano (BIC),
utilizados quatro métodos GWAS, Regressão Logística (realizada por PLINK),
Critério de Informação Akaike (AIC) e Critério de Informação Bayesiano Estendido
FarmCPU, BOLT-LMM e BLINK. A população de câncer de pulmão do Leste
(EBIC). O desempenho foi avaliado como poder estatístico vs. False Discovery
Asiático incluiu 8.807 amostras; cada amostra foi genotipada com 629.968 SNPs
Rate (FDR).
(filtrado por Minor Allele Frequency > 0,05, deixando 444.758 SNPs para o estudo
O poder estatístico foi definido como a proporção de Quantitative Trait Nucleotides
de associação). Os nomes dos genes candidatos ao câncer de pulmão (Qing et
(QTNs) simulados detectados em diferentes níveis de FDR. Os QTNs simulados
al., Nature Ge netics, 44, 1330–1335, 2012) com SNPs significativos próximos
foram amostrados dos genótipos reais em cinco espécies (humano, milho,
foram marcados no gráfico BLINK. As distâncias entre SNPs significativos e genes
Arabidopsis thaliana, camundongo e porco). Os fenótipos simulados apresentaram
candidatos também foram marcadas.
herdabilidade de 75%, controlados por 500 QTNs para humanos, 100 QTNs para
milho e camundongo e 50 QTNs para Arabidopsis thaliana e porco. Esses QTNs
Figura S6. Estudos de associação de interceptação de crescimento de peso
foram amostrados aleatoriamente a partir do Polimorfismo de Nucleotídeo Único
em camundongos. Foram utilizados quatro métodos GWAS, GLM (realizado por
(SNPs) disponível com a restrição de que cada dois QTNs fossem agrupados em
PLINK), FarmCPU, BOLT-LMM e BLINK. A população incluiu 1940 amostras; cada
uma distância de 300 Kb. O BIC superou outros dois critérios de seleção de
amostra foi genotipada com 12.226 SNPs (filtrado por Minor Allele Frequency >
modelos.
0,05, deixando 10.432 SNPs para o estudo de associação). O GLM incluiu os três
primeiros PCs como covariáveis para controlar a estrutura populacional. Os nomes
Figura S14. Impacto do ponto de corte para excluir marcadores correlacionados
dos genes candidatos de interceptação de crescimento de peso e QTL com SNPs
no poder estatístico. O impacto foi avaliado como poder estatístico em diferentes
significativos próximos foram marcados no gráfico BLINK. As distâncias entre
níveis de False Discovery Rate (FDR). O poder estatístico foi definido como a
SNPs significativos e genes candidatos/QTL também foram marcadas. Todas as
proporção de Quantitative Trait Nucleotides (QTNs) simulados detectados em
informações dos QTLs vieram da Mouse Genome Informatics (URL: http://
diferentes níveis de FDR. Os QTNs simulados foram amostrados dos genótipos
www.informatics.jax.org/).
reais em cinco espécies (humano, milho, Arabidopsis thaliana, camundongo e
porco).
Figura S7. Estudos de associação da espessura de toucinho da última costela
Os fenótipos simulados apresentaram herdabilidade de 75%, controlados por 500
em suínos. Foram utilizados quatro métodos GWAS, GLM (realizado por PLINK),
QTNs para humanos, 100 QTNs para milho e camundongo e 50 QTNs para
FarmCPU, BOLT-LMM e BLINK. A população incluiu 820 amostras; cada amostra
Arabidopsis thaliana e porco. Esses QTNs foram amostrados aleatoriamente a
foi genotipada com 64.212 SNPs (filtrados por Minor Allele Frequency > 0,05,
partir do polimorfismo de nucleotídeo único (SNPs) disponível com a restrição de
deixando 40.748 SNPs para o estudo de associação). O GLM incluiu os três
que cada dois QTNs fossem agrupados em uma distância de 300 Kb. O ponto de
primeiros PCs como covariáveis para controlar a estrutura populacional. Os nomes corte variou de 0,1 a
dos genes candidatos de espessura de toucinho e QTL com SNPs significativos
0,9 para excluir marcadores genéticos classificados na força de associação com
próximos foram marcados no gráfico BLINK. As distâncias entre SNPs significativos
fenótipos. Um corte mais alto leva a mais marcadores como covariáveis no modelo
e genes candidatos/QTL também foram marcadas. Todos os QTLs em formação para a próxima iteração dos testes de associação.
vieram do Pig Quantitative Trait Locus Database
Figura S15. Valores P idênticos usando BLINK versão C e versão R. Os
valores de P foram os testes de associação em fenótipos reais em quatro espécies.
Os fenótipos são (a) toucinho da última costela
Machine Translated by Google

Huang et ai. 11

espessura (porco), (b) câncer de pulmão (humano), (c) intercepção de crescimento Financiamento
de peso (camundongo) e (d) tempo de floração (Arabidopsis). Os valores P
Este material é baseado em trabalho que é apoiado por uma Subvenção Competitiva
são exibidos como –log10(valor P).
Interna de Questões de Pesquisa Emergentes do Centro de Pesquisa Agrícola da
Figura S16. Instantâneo de parcelas de Manhattan selecionadas aleatoriamente
Faculdade de Agricultura, Humanidade e
de 100 repetições. As parcelas de Manhattan foram baseadas na
Ciências dos Recursos Naturais na Washington State University; a
Valores P usando BLINK em fenótipos simulados a partir de reais
Comissão de Grãos de Washington (doação e prêmio 126593);
genótipos em cinco espécies (humano, milho, Arabidopsis thaliana,
a National Science Foundation (prêmio DBI 1661348); o Instituto Nacional de
rato e porco). Os fenótipos simulados tiveram uma herdabilidade
Alimentação e Agricultura; e o USDA (prêmios
de 75%, controlado por 500 QTNs para humanos, 100 QTNs para milho
2018–70005-28792 e 2016–68004-24770).
e camundongo, e 50 QTNs para Arabidopsis thaliana e porco. Esses
QTNs com pontos e círculos cinzas foram amostrados aleatoriamente de
o polimorfismo de nucleotídeo único (SNPs) disponível com o Contribuições do autor
restrição de que cada dois QTNs fossem agrupados dentro de 100 Kb
distância. As linhas verdes indicaram o teste múltiplo de Bonferroni ZZ concebeu o estudo e redigiu o manuscrito. O
limite. conceitos foram implementados por MH em linguagem C (BLINK-C)

Figura S17. Efeitos do número de componentes principais (PCs) e por YZ em linguagem R (BLINK-R). MH, XL, YZ e RMS

e poda de parentesco. A instalação de dois PCs e seus produtos teve realizou as análises de dados.

controle muito pior da inflação do valor P devido à estratificação populacional em


comparação com o ajuste de dez PCs para estudo de associação sobre
Reconhecimentos
época de floração do milho. A inflação foi ainda melhorada pela poda de parentesco
no PLINK no corte de 0,5, o que reduziu o número de Os autores agradecem à Dra. Linda R. Klein pelos valiosos conselhos de redação
amostras de 2279 para 1218. O número de SNPs significativos (Bon ferroni cutoff e pela edição do manuscrito.
de ÿ = 0,01) foi reduzido de 48.194 SNPs com
dois PCs e seu produto, para 2671 SNPs com dez PCs e para 211 Referências
SNPs com dez PCs mais poda de parentesco.
1. Georges M. Rumo à seleção genômica baseada em sequência de
gado. Nat Genet 2014;46:807–9.
Abreviaturas 2. Shendure J, Mitra RD, Varma C, et al. Sequenciamento avançado
tecnologias: métodos e objetivos. Nat Rev Genet 2004;5:335–
AUC: área sob a curva; BIC: Critérios Bayesianos de Informação;
44.
BLINK: chaveta aninhada iterativa de informação Bayesiana e desequilíbrio de
3. Frazer KA, Murray SS, Schork NJ, et al. Variação genética humana e sua
ligação; CMLM: MLM comprimido; EM: expectativa e maximização; EMMA:
contribuição para traços complexos. Nat Rev Genet
associação eficiente de modelos mistos; EMMAX: EMMA eXpedido; FarmCPU:
2009;10(4):241–51.
unificação de probabilidades circulantes de modelos fixos e aleatórios; FaST-LMM:
4. Glazier AM, Nadeau JH, Aitman TJ. Encontrar genes subjacentes a traços
modelos lineares mistos transformados espectralmente fatorados; FDR: falso
complexos. Ciência 2002;298:2345–9.
5. Lan Q, Hsiung CA, Matsuo K, et al. A análise de associação de todo o genoma
taxa de descoberta; MEF: modelo de efeito fixo; FOAM: Associação F-one
identifica novos loci de suscetibilidade ao câncer de pulmão em
mapeamento; GEMMA: associação de modelo misto eficiente em todo o genoma;
mulheres que nunca fumaram na Ásia. Nat Genet 2012;44:1330–5.
GLM: modelo linear geral; GWAS: estudos de associação de todo o genoma; LD:
6. Moonesinghe R, Khoury MJ, Janssens ACJW. Mais publicado
desequilíbrio de ligação; ML: máxima probabilidade; MLM: modelo mineral misto;
os resultados da pesquisa são falsos - mas um pouco de replicação vai um
MLMM: modelo misto multilocus; P3D: parâmetros populacionais previamente
longo caminho. PLoS Med 2007;4:4.
determinados; Computador:
7. Larsson SJ, Lipka AE, Buckler ES. Lições de Dwarf8 sobre o
Principal componente; QTL: Nucleotídeo de Traço Quantitativo PCA:
pontos fortes e fracos do ping de mapa de associação estruturada. PLoS
análise do componente principal; QTL: QTN: nucleótido de característica
Genet 2013;9, 1–11.
quantitativa; REM: modelo de efeito aleatório; REML: máximo restrito
8. JPA Ioannidis. Por que a maioria das descobertas de pesquisas publicadas são
probabilidade; ROC: característica de operação do receptor; SNP: polimorfismo de
falso. PLoS Med 2005;2:0696–701.
nucleotídeo único; SUPER: liquidação de MMN em relação de exclusividade
9. Yu J, Pressoir G, Briggs WH, et ai. Um modelo misto unificado
progressiva; USDA: Departamento de Agricultura dos Estados Unidos.
método para mapeamento de associação que leva em conta vários
níveis de parentesco. Nat Genet 2006;38:203–8.
´
10. Atwell S, Huang YS, Vilhjalmsson BJ, et ai. Estudo de associação de todo o
Declaração de ética genoma de 107 fenótipos em Arabidopsis thaliana em linhagens criadas.
Natureza 2010;465:627–31.
Quaisquer opiniões, descobertas, conclusões ou recomendações expressas nesta 11. Yang J, Zaitlen Na, Goddard ME, et al. Vantagens e armadilhas
publicação são de responsabilidade dos autores e não na aplicação de métodos de associação de modelos mistos. Nat
refletem necessariamente as opiniões das agências de financiamento. Todos os conjuntos de dados Genet 2014;46:100–6.
aqui analisados foram publicados anteriormente. Este estudo não 12. Pritchard JK, Stephens M, Donnelly P. Inferência da estrutura populacional
envolvem amostras de humanos ou animais. usando dados de genótipos multilocus. Genética
2000;155:945–59.
13. Pritchard JK, Stephens M, Rosenberg NA, et al. Mapeamento de associações
Interesses competitivos em populações estruturadas. Am J Hum Genet
2000;67:170–81.
Os autores declaram que não possuem recursos financeiros concorrentes
interesses. 14. Price AL, Patterson NJ, Plenge RM, et al. A análise de componentes principais
corrige a estratificação em estudos de associação de todo o genoma. Nat
Genet 2006;38:904–9.
Machine Translated by Google

12 Método GWAS BLINK

15. Price AL, Zaitlen NA, Reich D, et al. Novas abordagens para a 32. Akaike H. Um novo olhar sobre a identificação do modelo estatístico.

estratificação populacional em estudos de associação genômica ampla. IEEE Trans Automat Contr 1974;19:716–23.
Nat Rev Genet 2010;11:459–63. 16. de los Campos G, Gianola D, Allison 33. Chen J, Chen Z. Critérios de informação Bayesianos estendidos para
DB. Prevendo a predisposição genética em humanos: a promessa de seleção de modelos com grandes espaços de modelo. Biometrika
marcadores de genoma completo. Nat Rev Genet 2010;11:880–6. 2008;95:759–71.
34. Buckler ES, Holanda JB, Bradbury PJ, et al. A arquitetura genética da
17. Meuwissen TH, Hayes BJ, Goddard ME. Previsão do valor genético total época de floração do milho. Ciência 2009;325:714–8.
˜
usando mapas de marcadores densos em todo o genoma. Genética 35. Romero Navarro JA, Willcox M, Burgueno J, et al. Um estudo da
2001;157:1819–29 . diversidade alélica subjacente à adaptação ao tempo de floração em
18. Loh P, Tucker G, Bulik-Sullivan BK, et al. A análise eficiente do modelo variedades crioulas de milho. Nat Genet 2017;49:476–80.
misto Bayesiano aumenta o poder de associação em grandes coortes. 36. Chang CC, Chow CC, Tellier LCAM, et al. PLINK de segunda geração:
Nat Genet 2014;47:284–90. enfrentando o desafio de conjuntos de dados maiores e mais ricos.
19. Kang HM, Zaitlen NA, Wade CM, et al. Controle eficiente da estrutura GigaScience 2015;4:7.
populacional no mapeamento de associação de organismo modelo. 37. Romay MC, Millard MJ, Glaubitz JC, et al. Genotipagem abrangente do
Genética 2008;178:1709–23. banco nacional de sementes de milho dos EUA.
20. Kang HM, Sul JH, Service SK, et al. Modelo de componente de variância Genoma Biol 2013;14:R55.
para explicar a estrutura da amostra em estudos de associação de todo 38. Neves HHR, Carvalheiro R, Queiroz SA. Uma comparação de métodos
o genoma. Nat Genet 2010;42:348–54. estatísticos para seleção genômica em uma população de camundongos.
21. Zhang Z, Ersoz E, Lai CQ, et al. Abordagem de modelo linear misto BMC Genet 2012;13:100.
adaptado para estudos de associação de todo o genoma. Nat Genet 39. Fan B, Onteru SK, Du ZQ, et al. Estudo de associação de todo o genoma
2010;42:355–60. identifica loci para composição corporal e características estruturais de
22. Zhou X, Stephens M. Análise de modelo misto eficiente em todo o genoma solidez em suínos. PLoS One 2011;6:e0014726.
para estudos de associação. Nat Genet 2012;44:821–4. 40. Tang Y, Liu X, Wang J et al. GAPIT Versão 2: Uma ferramenta integrada
23. Lippert C, Listgarten J, Liu Y, et al. Modelos mistos lineares FaST para aprimorada para associação e previsão genômica. Plant Genoma 2016;9,
estudos de associação de todo o genoma. Métodos Nat 2011;8:833–5. 1–9.
41. Lipka AE, Tian F, Wang Q et al. GAPIT: Ferramenta integrada de
24. Svishcheva GR, Axenovich TI, Belonogova NM, et al. Método baseado associação e predição de genoma. Bioinformática 2012;28:2397–
9.
em componentes de variância rápida para análise de associação de
genoma inteiro. Nat Genet 2012;44:1166–70. 42. Projeto Panzea, data de adesão: 29 de agosto de 2014, URL do tipo
25. Li M, Liu X, Bradbury P, et al. Enriquecimento do poder estatístico para geno: http://cbsusrv04.tc.cornell.edu/users/panzea/filegatew ay.aspx?
estudos de associação do genoma. BMC Biol 2014;12:73. category=Genotypes.
26. Listgarten J, Lippert C, Kadie CM, et al. Modelos mistos lineares 43. Projeto Panzea, data de adesão: 29 de agosto de 2014, URL do tipo de
aprimorados para estudos de associação de todo o genoma. Métodos fenótipo: https://www.panzea.org/phenotypes.
Nat 2012;9:525–6. 44. O banco de dados de genótipos e fenótipos (dbGAP) no centro nacional
27. Wang Q, Tian F, Pan Y, et al. Um método super poderoso para estudo de de informações sobre biotecnologia (NCBI), data de acesso: 2 de agosto
associação ampla do genoma. PLoS One 2014;9:e107684. de 2015, URL: http://www.ncbi.nlm.nih.gov/p rojects/gap /cgi-bin/study.cgi?
´
28. Segura V, Vilhjalmsson BJ, Platt A, et al. Uma abordagem de modelo id do estudo =phs000716.v1.p1.
misto multilocus eficiente para estudos de associação de todo o genoma 45. Gramen: Um recurso para genômica comparativa de gramíneas, data de
em populações estruturadas. Nat Genet 2012;44:825–30. acessão: 9 de dezembro de 2013, URL: http://archive.gramene.org/di
29. Liu X, Huang M, Fan B, et al. Uso iterativo de modelos de efeitos fixos e versity/download data.html.
aleatórios para estudos de associação de todo o genoma poderosos e 46. Código R de criação de conjuntos de dados de genótipos sintéticos para
eficientes. PLoS Genet 2016;12:e1005767. testes de velocidade, data de acesso: 28 de setembro de 2018, URL:
30. Purcell S, Neale B, Todd-Brown K, et al. PLINK: um conjunto de https://github.com/Menggg/BLINK/blob/master/synthetic genótipo data.R.
ferramentas para a associação de todo o genoma e análises de ligação 47. Huang M, Liu X, Zhou Y, et al. Dados de suporte para “BLINK: um pacote
com base na população. Am J Hum Genet 2007;81:559–75. para o próximo nível de estudos de associação de todo o genoma com
indivíduos e marcadores nos milhões”.
31. Loh P, Tucker G, Bulik-Sullivan BK, et al. A análise eficiente do modelo
misto Bayesiano aumenta o poder de associação em grandes coortes. Banco de dados GigaScience 2018. http://dx.doi.org/10.5524/10053 6.
Nat Genet 2014;47:284–90.

Você também pode gostar