Combinando genótipo, fenótipo e dados ambientais para delinear estratégias de proveniência ajustadas ao local para restauração ecológica

1
2 MISS CAROLINA DA SILVA CARVALHO (Orcid ID: 0000-0002-0063-2185) MISS

3 BRENNA RENEE FORESTER (Orcid ID: 0000-0002-1608-1904)
4 DR. LUCIANA CUNHA RESENDE-MOREIRA (Orcid ID: 0000-0003-2977-8433) DR.
5 RODOLFO PHD JAFFÉ (Orcid ID: 0000-0002-2101-5282)
Artigo Aceito
6
7
8 Tipo de artigo : Artigo de Recurso
9
10
11 Combinando genótipo, fenótipo e dados ambientais para delinear
12 estratégias de proveniência ajustadas ao local para restauração
13 ecológica
14
15 Carolina s. Carvalho1, Brenna R. Forester2, Simone K. Mitre1, Ronnie Alves1, Vera L.
16 Imperatriz-Fonseca1, Silvio J. Ramos1, Luciana C. Resende-Moreira1, José O. Siqueira1,
17 Leonardo C. Trevelin1, Cecilio F. Caldeira1, Markus Gastauer1, Rodolfo Jaffé1,3 *
18
1 Instituto Tecnológico Vale, Belém-PA, Brasil.
19
2 Colorado State University, Fort Collins-CO, EUA

20
3 Departamento de Ecologia, Universidade de São Paulo, São Paulo-SP, Brasil.

21
22
23 * Correspondência:
24 Rodolfo Jaffé
25 email: r.jaffe@ib.usp.br
fone: +55 (91) 3213 5523
Este artigo foi aceito para publicação e passou por revisão completa por pares, mas não
passou pelo processo de edição, composição, paginação e revisão, o que pode levar a
diferenças entre esta versão e a Versão do registro. Por favor, cite este artigo comodoi:
10.1111 / 1755-0998.13191
Este artigo é protegido por direitos autorais. Todos os direitos reservados
28 Resumo
29
30 Apesar da importância do financiamento ajustado ao clima para mitigar os efeitos das mudanças ambientais, as
31 considerações climáticas por si só são insuficientes na restauração de locais altamente degradados. Aqui,
32
Artigo Aceito
propomos uma abordagem genômica abrangente da paisagem para auxiliar na restauração de locais
33 moderadamente perturbados e altamente degradados. Para ilustrar isso, empregamos conjuntos de dados
34 genômicos compreendendo milhares de polimorfismos de nucleotídeo único de duas espécies de plantas
35 adequadas para a restauração de savanas amazônicas ricas em ferro. Primeiro usamos um subconjunto de loci
36 neutros para avaliar a estrutura genética e determinar o tamanho da vizinhança genética. Em seguida,
37 identificamos associações genótipo-fenótipo-ambiente, mapeamos a variação genética adaptativa e predizemos
38 genótipos adaptativos para locais de restauração. Considerando que as procedências locais foram consideradas
39 ideais para restaurar um local moderadamente perturbado, uma mistura de genótipos parecia a estratégia mais
40 promissora para recuperar um local de mineração altamente degradado. Discutimos como nossos resultados
41 podem ajudar a definir estratégias de provisão ajustadas ao local e argumentamos que nossos métodos podem
42 ser mais amplamente aplicados para auxiliar outras iniciativas de restauração.
43
44 Palavras-chave: Associações genótipo-ambiente (GEA), associações genótipo-fenótipo (GPA),
45 genômica da paisagem, adaptação local, sequenciamento RAD, restauração genômica,
46 polimorfismos de nucleotídeo único (SNP).

47 Introdução
48
49 Apesar da importância amplamente reconhecida da proveniência genética para iniciativas de restauração,
50 o uso de ferramentas genômicas para definir estratégias de proveniência ainda é incomum. A escolha de
51 procedências com base no conhecimento genético pode ajudar a aumentar a diversidade genética e
Artigo Aceito
52 adaptabilidade, contribuindo assim para o sucesso das iniciativas de restauração (Broadhurst et al., 2008;
53 Mijangos et al., 2015; Weeks et al., 2011) . Felizmente, o uso de comprovação genética está aumentando,
54 pois os avanços nas tecnologias de sequenciamento de última geração tornaram possível avaliações em
55 grande escala da variação genética neutra e adaptativa (Breed et al., 2019; Mijangos et al., 2015; Williams
56 et al. ., 2014) . Por exemplo, loci neutros (ou seja, aqueles que não estão sujeitos à seleção natural) podem
57 ser usados para identificar unidades demográficas independentes, avaliar a estrutura genética espacial
58 em escala fina e quantificar a diversidade genética (Allendorf et al., 2013; Balkenhol et al., 2017) ;
59 Considerando que loci adaptativos (sob seleção natural) são relevantes para detectar adaptações às
60 condições ambientais locais e delinear unidades adaptativas (Funk et al., 2012; Rellstab et al., 2015) .
61
62 Estudos genômicos de restauração publicados até agora avaliaram o efeito de múltiplas
63 variáveis ambientais na composição genética, a fim de identificar quais indivíduos ou
64 populações estão “pré-adaptados” a climas futuros (Gugger et al., 2018; Lu et al., 2019; Martins
65 et al., 2018; Rossetto et al., 2019; Shryock et al., 2017, 2015; Steane et al., 2014; Supple et al.,
66 2018) . Embora esta informação seja essencial para informar os esquemas de comprovação preditivos e
67 ajustados ao clima (Prober et al., 2015) , a ênfase no clima obscureceu a aplicação de métodos genômicos
68 para restaurar locais extremamente degradados (Bucharova et al., 2019; Lesica e Allendorf, 1999) . Tal
69 comprovação ajustada ao local (visando a restauração de locais específicos considerando suas condições
70 ambientais atuais) pode nem mesmo incorporar considerações sobre mudanças climáticas, já que locais
71 altamente degradados têm características únicas que os tornam extremamente difíceis de restaurar. Em
72 primeiro lugar, locais altamente degradados geralmente requerem restauração ou reabilitação imediata,
73 portanto, as adaptações às condições ambientais atuais são mais adequadas para orientar as estratégias
74 de proveniência do que aquelas baseadas no clima futuro (Gastauer et al.,
75 2019) . Em segundo lugar, as agências de proteção ambiental geralmente exigem a restituição dos
76 ecossistemas às condições o mais próximo possível de uma linha de base pré-perturbação, bem como
77 monitoramento regular (e caro) até que as metas de reabilitação sejam alcançadas (Gastauer et al., 2019) .

78 Os principais esforços, portanto, estão no rápido estabelecimento de populações viáveis que irão
79 restaurar as funções e processos do ecossistema, prevenir a erosão do solo e proteger a diversidade
80 biológica. Terceiro, locais altamente degradados, como minas a céu aberto exauridas, têm características
81 ambientais radicalmente diferentes dos habitats naturais (Gastauer et al., 2019) , portanto, as
82 características específicas do local são de importância primária para definir estratégias de proveniência.
Artigo Aceito
83 Essas variáveis específicas do local geralmente precisam ser medidasno local e na resolução espacial fina,
84 uma vez que podem não estar disponíveis como camadas espaciais em repositórios de acesso aberto (e se
85 estiverem, sua resolução espacial pode ser muito grosseira para refletir a realidade das condições
86 ambientais no solo). Finalmente, as estratégias de provisão ajustadas ao local precisam considerar as
87 adaptações locais ao clima, solo, terreno e até mesmo interações biológicas, enquanto as estratégias de
88 provisão centradas no clima focam exclusivamente no clima.
89 O grau de perturbação pode desempenhar um papel importante na

90 determinação de estratégias de proveniência ajustadas ao local (Breed et al., 2013;
91 Lesica e Allendorf, 1999) . Considerando que os genótipos locais são geralmente os
92 mais adequados para restaurar locais onde o grau de perturbação é baixo, as
93 adaptações encontradas em populações distantes podem facilitar o estabelecimento
94 em locais altamente degradados aos quais os genótipos locais podem não ser
95 adaptados (Breed et al., 2013; Broadhurst et al. ., 2008; Lesica e Allendorf, 1999) ).
96 Misturas de genótipos de diferentes populações têm sido sugeridas como a melhor
97 estratégia para recuperar locais altamente degradados, visto que a variação genética
98 aumentada tem mais probabilidade de gerar adaptações locais a novos desafios
99 ecológicos (Lesica e Allendorf, 1999) . Em qualquer caso,
100 Embora o uso de marcadores genéticos neutros para identificar unidades demográficas
101 independentes seja uma prática comum (Coates et al., 2018) , poucos estudos de restauração delinearam
102 estratégias de obtenção de sementes com base na estrutura genética populacional (Durka et al., 2017) ou
103 o tamanho da vizinhança genética (a distância na qual a composição genética para de ser espacialmente
104 autocorrelacionada) (Krauss et al., 2013; Krauss e Koch, 2004; Rossetto et al., 2019) . Por outro lado,
105 apenas três estudos genômicos de restauração até agora identificaram loci adaptativos putativos e, em
106 seguida, mapearam a variação genética adaptativa (Martins et al., 2018; Shryock et al., 2015; Steane et al.,
107 2014) . Embora a avaliação do fenótipo por meio de experimentos de jardim comum e transplante
108 recíproco para identificar adaptações locais tenha uma longa história (Aitken e Bemmels,

109 2016) , nenhum estudo ainda combinou associações genótipo-ambiente (GEA) com associações genótipo-
110 fenótipo (GPA) para delinear áreas de abastecimento de sementes. Esta abordagem pode melhorar a
111 inferência de genes candidatos em potencial e fornecer informações importantes sobre genes subjacentes
112 a características relacionadas à aptidão (Mahony et al., 2019; Talbot et al., 2016; Vangestel et al.,
113 2018) .
Artigo Aceito
114 Aqui, propomos uma abordagem genômica abrangente da paisagem para auxiliar
115 na restauração de locais moderadamente perturbados e altamente degradados. Baseando-
116 se na genotipagem por sequenciamento, identificamos milhares de polimorfismos de
117 nucleotídeo único em duas espécies de plantas de interesse especial para a restauração de
118 minas exauridas da Província Mineral de Carajás, localizada na Amazônia Oriental (Skirycz
119 et al., 2014; Souza-Filho et al. ., 2019) . Primeiro, usamos um subconjunto de loci neutros
120 para avaliar a estrutura genética ampla e em escala fina e determinar o tamanho da
121 vizinhança genética. Posteriormente, combinamos métodos univariados e multivariados
122 para identificar GEA e GPA e empregamos análises de componentes principais espaciais
123 (sPCA) para mapear a variação genética adaptativa enquanto contabilizamos a
124 autocorrelação espacial na composição genética. Finalmente,
125 Nosso foco está na Província Mineral de Carajás, que abriga um dos maiores depósitos de minério de
126 ferro do mundo e grandes projetos de mineração de minério de ferro, com operações que datam da década de
127 1980 (Poveromo, 1999; Souza-Filho et al., 2019) . As formações de pedra de ferro bandadas conhecidas como
128 Cangas (onde os depósitos de minério de ferro estão concentrados) são caracterizados por solos rasos, ácidos,
129 pobres em nutrientes e ricos em metais e marcados por alta radiação solar, temperaturas quentes e um período
130 de seca severa (Skirycz et al., 2014) , que representam desafios severos para o crescimento das plantas. A
131 legislação ambiental no Brasil exige a reabilitação de áreas desativadas de mineração de minério de ferro
132 (Gastauer et al., 2019) , que se constituem em ambientes extremamente degradados e de difícil restauração.
133 Esses locais de mineração são caracterizados por extensa vegetação e remoção de solo, solos compactados,
134 pobres em nutrientes e encostas íngremes (Boyer e Wratten, 2010; Garris et al., 2016; Whiting et al., 2004) . A
135 restauração e reabilitação bem-sucedidas desses locais altamente degradados requer, portanto, uma seleção
136 adequada de espécies de plantas (Giannini et al., 2017) e zonas de abastecimento de sementes para garantir
137 que as plantas introduzidas possam efetivamente colonizar e estabelecer populações viáveis. No entanto, os
138 programas de reabilitação de minas na região empregam

139 misturas de sementes de plantas exóticas, devido à escassez de sementes nativas e suas menores taxas de
140 germinação e crescimento (Silva et al., 2018) . Além disso, alguns ambientes naturais de Canga da região
141 foram repetidamente perturbados por incêndios, criação ilegal de gado e a introdução de espécies de
142 plantas exóticas, como gramíneas e samambaias. É o caso da Serra da Bocaina, que se tornou Parque
143 Nacional em 2017 e desde então está protegida (Mota et al., 2018) . Nenhuma iniciativa de restauração foi
Artigo Aceito
144 implementada para recuperar os ecossistemas originais encontrados na Serra da Bocaina, mas as
145 estratégias de proveniência devem diferir substancialmente daquelas necessárias para reabilitar minas
146 desativadas.
147 Por serem espécies nativas, dominantes em ambientes Canga, e uma vez encontradas nos locais a
148 serem restaurados, Mimosa acutistipula var. ferreaBarneby e Dioclea apurensis Kunth (ambas as
149 leguminosas) estão entre as plantas mais promissoras para uso na restauração de Canga e programas de
150 reabilitação de minas (Giannini et al., 2017) . Consideradas espécies de metalófitas, ambas exibem
151 mecanismos biológicos para tolerar e prosperar em solos metalíferos (Preite et al., 2019; Whiting et al.,
152 2004) . Além disso, são extremamente abundantes em ecossistemas prístinos de Cangas e interagem
153 simbioticamente com bactérias fixadoras de nitrogênio, contribuindo para o enriquecimento do solo e
154 atuando como espécies pioneiras em locais de restauração (Nunes et al., 2015; Ramos et al., 2019a; Silva et
155 al. ., 2018) .Mimosa acutistipula é tolerante à seca e bem adaptado ao baixo teor de nutrientes dos solos
156 de Canga (Silva et al., 2018) . Por outro lado,D. apurensis requer baixa entrada de nutrientes e mostra alta
157 eficiência de uso de nutrientes (Ramos et al., 2019b) . Além disso, esta espécie é um cipó de rápido
158 crescimento com forma de crescimento cobrindo o solo, permitindo a revegetação e estabilização de
159 minas e pilhas de estéril. Ambas as espécies apresentam altas taxas de germinação (Ramos et al., 2019a) ,
160 podem ser observadas crescendo em minelands e parecem ser centrais em redes planta-polinizador
161 (dados não publicados). Considerando o ambiente heterogêneo e hostil onde ambas as espécies ocorrem
162 (Mitre et al., 2018) , e suas similaridades de história de vida, esperamos encontrar padrões semelhantes de
163 estrutura genética neutra e adaptativa em ambas as espécies em nossa área de estudo. Também
164 esperávamos que as populações locais não estivessem adaptadas às condições ambientais encontradas
165 em locais de mineração exauridos, uma vez que diferem drasticamente das condições anteriores à
166 mineração, ao passo que as populações da Serra da Bocaina apresentariam adaptações às condições
167 ambientais locais. Com base em nossos resultados, propomos duas estratégias de proveniência ajustadas
168 ao local diferentes para a restauração de um local de mina degradado

169 e um ambiente Canga perturbado, mas não minado. Discutimos os méritos de nossa abordagem e argumentamos que
170 ela pode ser aplicada de forma mais ampla para definir estratégias de provisão ajustadas ao local.
171
172 Material e métodos
173
Artigo Aceito
174 Amostragem
175 Seguimos um desenho amostral estratificado, buscando garantir alto poder estatístico nas análises GEA e GPA, maximizando a
176 variabilidade ambiental dentro de diferentes agrupamentos genéticos. Coletamos amostras de 180 indivíduos deM. acutistipula
177 var. ferrea e 167 indivíduos de D. apurensis entre fevereiro e maio de 2018 (alvará de coleta do SISBIO nº 48272-6), nos três
178 principais planaltos do Canga da Província Mineral de Carajás (Fig. 2). Para cada planta individual, coletamos uma amostra de
179 solo proximal da raiz (0-5 cm) para caracterização química e amostras de folhetos para análises de fenótipo e genótipo. Estes
180 ecossistemas Canga são compostos por várias fisionomias, compreendendo pastagens, matagais, pântanos e formações
181 florestais (Mota et al., 2015) , que diferem em termos das comunidades de plantas que suportam, bem como na química do solo
182 (Mitre et al. , 2018) . Para garantir a amostragem através dos gradientes ambientais, indivíduos foram coletados em cada uma
183 dessas fisionomias dentro de cada planalto. Também espalhamos amostras para cobrir toda a extensão de cada planalto (Fig. 2).
184 Uma distância mínima de 20 metros entre as amostras foi usada para minimizar os indivíduos relacionados à amostragem. Além
185 das amostras de solo coletadas junto com o tecido da planta, coletamos 50 amostras extras de solo de um local de mina
186 altamente degradado (a cava de uma mina exaurida) e sete amostras de solo de um local nunca minerado, mas
187 moderadamente perturbado (espalhado por Serra da Bocaina, Fig. 2). Essas amostras de solo foram usadas para prever
188 genótipos adaptativos associados às condições ambientais de ambos os locais de restauração (ver detalhes abaixo). Figura 2).
189 Essas amostras de solo foram usadas para prever genótipos adaptativos associados às condições ambientais de ambos os locais
190 de restauração (ver detalhes abaixo). Figura 2). Essas amostras de solo foram usadas para prever genótipos adaptativos
191 associados às condições ambientais de ambos os locais de restauração (ver detalhes abaixo).
192
193
194 Dados ambientais
195 As amostras de solo foram secas ao ar e peneiradas em malha de 2 mm e, uma vez secas,
196 enviadas ao LABRAS (http://labrasambientaiseagricolas.com.br/) para análises químicas. Estes
197 incluíram pH, matéria orgânica, P, K e Na disponíveis, Ca, Mg e Al trocáveis, S trocáveis e B, Cu,
198 Fe, Mn e Zn disponíveis (ver detalhes em Métodos de Informação de Apoio S1). Para reduzir o
199 número de parâmetros químicos que descrevem a composição do solo, selecionamos aqueles

200 conhecido por afetar a fisiologia vegetal em ecossistemas metalíferos (matéria orgânica, Fe, Mn,
201 P, pH, S e B (Bothe, 2011; Mitre et al., 2018; Whiting et al., 2004) ), juntamente com um conjunto de
202 variáveis ortogonais que explicam a maioria das variações na composição do solo em nossa área de
203 estudo. Para identificar este conjunto de variáveis ortogonais, primeiro usamos a funçãoimputePCA de
204 missMDA Pacote R (Josse e Husson, 2016) para imputar dados ausentes (20 amostras continham dados
Artigo Aceito
205 ausentes para pelo menos um parâmetro) usando o algoritmo de PCA iterativo regularizado recomendado
206 para evitar overfitting (Josse e Husson, 2016) . Em seguida, executamos análises de componentes
207 principais (PCA) separadas para cada espécie usando todos os parâmetros químicos centralizados e
208 escalonados e selecionamos as três variáveis que mostram a correlação mais forte com o primeiro,
209 segundo e terceiro eixos de PC (cada um mostrando autovalores> 1 e> 10% de variância total explicada e
210 todos os três explicando> 50% da variância total; Tabela S1). As variáveis de solo selecionadas foram
211 matéria orgânica, Zn e Na em ambas as espécies).
212 Também recuperamos dados climáticos do WorldClim versão 1 [1950-2000; (Hijmans et al.,
213 2005) ], usando as coordenadas da amostra para extrair todas as variáveis bioclimáticas. Seguimos um
214 protocolo semelhante para obter o conjunto de variáveis ortogonais que explicam a maior parte da
215 variância climática em nossa região de estudo (Tabela S1). Os três primeiros eixos do PCA explicaram 80%
216 da variância climática total em ambas as espécies, e as variáveis bioclimáticas mais fortemente
217 correlacionadas com esses eixos foram isotermalidade (bio03), temperatura mínima do mês mais frio
218 (bio06) e precipitação do trimestre mais seco (bio17) paraM. acutistipula; e isotermalidade (bio03),
219 temperatura mínima do mês mais frio (bio06) e temperatura máxima do mês mais quente (bio05) para D.
220 apurensis (veja a Fig. S1 para mapas dessas camadas). As correlações entre essas variáveis ambientais
221 foram todas abaixo de | r | <0,6 (Fig. S2).
222
223 Dados fenotípicos
224 Para cada amostra de folha, determinamos o conteúdo de macro e micronutrientes e a área foliar
225 específica (SLA), usando métodos padrão (ver detalhes em Métodos S1). Selecionamos as variáveis
226 fenotípicas conhecidas por afetar a fisiologia das plantas em ecossistemas metalíferos (SLA, N,
227 B, Fe, Mn, P, N / P, (Bothe, 2011; Mitre et al., 2018; Pérez-Harguindeguy et al., 2013) . Conforme descrito
228 acima, também selecionamos as três variáveis fenotípicas ortogonais que explicam a maior parte da
229 variância fenotípica (os três primeiros eixos de PCA explicaram mais de 50% da variância total em ambas as
230 espécies, Tabela S1) após imputar dados ausentes (11 amostras continham dados ausentes em em

231 pelo menos um parâmetro). As variáveis fenotípicas selecionadas foram Zn, N e B paraM. acutistipula e
232 P, Mn e K para D. apurensis (correlações entre essas variáveis fenotípicas foram todas abaixo de | r
233 | <0,6; Fig. S2).
234
235 Estimativa do tamanho do genoma, extração de DNA, genótipo por sequenciamento e processamento
Artigo Aceito
236 bioinformático
237 Usamos a citometria de fluxo para estimar o tamanho do genoma haplóide em ambas as espécies (o
238 conteúdo de DNA 1C foi de 712 Mbp em M. acutistipula e 642 Mbp em D. apurensis, veja detalhes em
239 Métodos S1). O DNA total foi extraído usando o DNeasy Plant Mini Kit da Qiagen. A concentração de DNA
240 foi quantificada com o kit Qubit High Sensitivity Assay (Invitrogen) e a integridade do DNA avaliada por
241 eletroforese em gel de agarose a 1,2%. Amostras com concentrações abaixo de 5 ng / µL ou sem bandas
242 limpas foram excluídas de todas as análises, e as amostras selecionadas foram normalizadas para uma
243 concentração de 5 ng / µL e um volume total de 30 µL. Estes foram então enviados para SNPSaurus (http://
244 snpsaurus.com/) para sequenciamento e processamento bioinformático de dados brutos (ver detalhes em
245 Métodos S1). Resumidamente, o DNA genômico foi convertido em bibliotecas de genotipagem por
246 sequenciamento nextRAD (SNPsaurus, LLC) como em (Russello et al., 2015) , considerando o tamanho do
247 genoma estimado de cada espécie. O DNA genômico foi fragmentado pela primeira vez com o reagente
248 Nextera DNA Flex (Illumina, Inc), que também liga sequências adaptadoras curtas às extremidades dos
249 fragmentos. A reação Nextera foi dimensionada para fragmentar 14 ng e 20 ng de DNA genômico paraM.
250 acutistipula e D. apurensis, respectivamente. O DNA fragmentado foi então amplificado por 25 ciclos a 75
251 graus, com um dos primers correspondendo ao adaptador e estendendo 8 nucleotídeos no DNA genômico
252 com a sequência seletiva TGCAGGAG. Assim, apenas fragmentos que começam com uma sequência que
253 pode ser hibridizada pela sequência seletiva do primer foram amplificados de forma eficiente. As
254 bibliotecas nextRAD foram então sequenciadas em um HiSeq 4000 com seis e cinco faixas de leituras de
255 150 bp paraM. acutistipula e D. apurensis, respectivamente (Universidade de Oregon). As leituras foram
256 cortadas usandoFerramentas BBMap
257 (http://sourceforge.net/projects/bbmap/) para excluir adaptadores Nextera e um contig de referência foi
258 criado coletando 10 milhões de leituras no total, distribuídas uniformemente a partir das amostras e
259 excluindo leituras que tiveram contagens inferiores a 6 ou mais que 800. Os loci restantes foram então
260 alinhados entre si para identificar loci alélicos e colapsar haplótipos alélicos em um único representante.
261 Todas as leituras foram mapeadas para o contig de referência com uma identidade de alinhamento

262 limite de 95% usando Ferramentas BBMap. A chamada do genótipo foi feita usando callvariants
263 (ferramentas BBMap), e o conjunto resultante de genótipos foi filtrado para remover alelos com frequência
264 populacional inferior a 3%. Os loci que eram heterozigotos em todas as amostras e os loci que continham
265 mais de 2 alelos em uma amostra (sugerindo parálogos colapsados) foram removidos. Um total de
266 7.165 sequências RAD-tag foram obtidas para M. acutistipula e 4.325 para D. apurensis.
Artigo Aceito
267 Considerando o tamanho do genoma de cada espécie e um tamanho de bloco de ligação de 378 Kbp
268 (valor médio para a família Fabaceae, (Lowry et al., 2017) ), estimamos uma proporção máxima de
269 cobertura do genoma (assumindo uma etiqueta RAD por bloco ) de 100% (McKinney et al., 2017) . A
270 partir dessas RAD-tags, 17.403 SNPs foram gerados paraM. acutistipula e 9.857 SNPs para
271 D. apurensis (profundidade mínima de sequenciamento de 14 e 9, respectivamente).
272
273 Diversidade genética e estrutura genética neutra
274 O pacote R r2vcftools (https://github.com/nspope/r2vcftools) - um invólucro para VCFtools (Danecek et al.,
275 2011) - foi usado para realizar o controle de qualidade final nos dados do genótipo. Para avaliar a
276 estrutura genética neutra e a diversidade genética, usamos uma série de filtros para obter um conjunto de
277 loci neutros e independentes. Os critérios de filtragem incluíram qualidade (pontuação de Phred> 30),
278 profundidade de leitura (20 - 800), frequência de alelo menor (MAF> 0,05), desequilíbrio de ligação (r2 < 0.8,
279 (Xuereb et al., 2018) ), Hardy-Weinberg Equilibrium (HWE, p> 0,0001), e loci e indivíduos com menos de
280 20% de dados ausentes (um exemplo de script de filtragem pode ser visto em https://github.com/rojaff/
281 r2vcftools_basics). Além disso, removemos loci potencialmente sob seleção usando varreduras de genoma.
282 Isso representou a estrutura da população (avaliada usando o
283 snmf função do LEA pacote, conforme descrito abaixo), e controlado para taxas de descoberta falsa
284 ajustando p-valores com o fator de inflação genômico (λ) e definindo taxas de descoberta falsa para q
285 =0,05, usando o algoritmo de Benjamini-Hochberg (François et al., 2016) (ver detalhes abaixo).
286
287 Usamos duas abordagens de agrupamento genético complementar para avaliar a estrutura
288 neutra da população: o snmf função do LEA pacote (Frichot e François, 2015) , e Análise
289 Discriminante de Componentes Principais - DAPC do adegenet pacote (Jombart e Ahmed, 2011) . O
290 snmf modelo implementa um algoritmo de verossimilhança rápido, mas preciso (Frichot et al., 2014),
291 enquanto o DAPC é um método de agrupamento genético robusto sem nenhuma suposição sobre o
292 modelo genético de população subjacente (Jombart e Ahmed, 2011) .

293 Com base em estudos genômicos populacionais anteriores para outras espécies de plantas coocorrentes
294 (Carvalho et al., 2019; Lanes et al., 2018; Silva et al., 2020) , testamos de uma a dez populações ancestrais (
295 k). No caso de snmf realizamos dez execuções de replicação para cada valor de k,
296 escolhendo o mais provável k com base na entropia cruzada minimizada. Para DAPC, inferimos o ótimo
297 k usando k-means clustering e o Bayesian Information Criterion (BIC). Considerando o

Artigo Aceito
298 coeficientes de ancestralidade atribuídos por snmf, então estimamos a heterozigosidade esperada (HE),
299 coeficientes de consanguinidade (F), e diversidade de nucleotídeos (π) para cada agrupamento genético. Nós também
300 estimado em pares FST usando o pacote dartR R (Gruber et al., 2018) , e eficaz
301 tamanhos de população (Ne) empregando o método de desequilíbrio de ligação implementado no
302 NeEstimator 2.1 e um valor de frequência de alelo mais baixo de 0,05 (Do et al., 2014) . Finalmente, nós
303 avaliaram a estrutura genética espacial em escala fina em cada espécie dentro de cada agrupamento
304 genético por meio do ajuste polinomial local (LOESS) do parentesco genético de Yang entre pares de
305 indivíduos (Yang et al., 2010) e distância geográfica entre pares, como em (Carvalho et al. ,
306 2019) .
307
308 Avaliação de associações genótipo-ambiente (GEA) e associações genótipo-fenótipo
309 (GPA)
310 Para avaliar GEA e GPA (Fig. 1), primeiro filtramos os loci para qualidade (pontuação de Phred>
311 30), profundidade de leitura (20-800), frequência de alelo menor (MAF> 0,05), desequilíbrio de
312 ligação (r² < 0,8), e loci e indivíduos com menos de 20% de dados ausentes. Em seguida,
313 combinamos métodos univariados e multivariados, ou seja, Latent Factor Mixed Models (LFMM)
314 e Análise de Redundância (RDA). Enquanto LFMM identifica associações entre loci único e
315 preditores únicos, RDA pode detectar assinaturas multilocus de seleção como uma função de
316 um conjunto multivariado de preditores (Caye et al., 2019; Forester et al., 2018) . Ambos os
317 métodos assumem uma relação linear entre a frequência do alelo e as variáveis ambientais,
318 têm sido usados extensivamente (Ahrens et al., 2018) , fornecem um bom compromisso entre
319 o poder de detecção e as taxas de erro e são robustos para uma variedade de projetos de
320 amostragem e demografia subjacente modelos (Forester et al., 2018; Rellstab et al., 2015) . Uma
321 vez que ambos os métodos requerem conjuntos de dados completos (sem valores ausentes),M.
322 acutistipula e D. apurensis respectivamente) com base no
323 snmf atribuições de população da etapa anterior, usando o imputar função e o modo

324 método do LEA pacote (Frichot e François, 2015) . Esta função imputa genótipos ausentes
325 usando estimativas de frequência de ancestralidade e genótipo dosnmf corre.
326 A análise LFMM foi realizada usando o lfmm pacote (Caye et al., 2019) e
327 estimativas de cume, que minimizam mínimos quadrados regularizados com um eu2 penalidade (veja o
328 script de exemplo aqui: https://bcm-uga.github.io/lfmm/articles/lfmm). Em vez de usar preditor bruto

Artigo Aceito
329 variáveis, empregamos os primeiros quatro eixos resultantes de uma Análise de Componentes
330 Principais (PCA) em todas as variáveis preditoras a fim de minimizar o número de testes. Esses
331 quatro eixos explicaram mais de 60% da variância ambiental e fenotípica total em ambas as espécies,
332 e foram fortemente correlacionados (| r |> 0,7) com material orgânico, B, Fe, Bio06, Bio17, Zn, S e Na
333 (variáveis ambientais) , e N / P, P, Fe (variáveis fenotípicas) em ambas as espécies. Executamos
334 LFMM usando o número previamente identificado de clusters genéticos (k =3, ver resultados) como
335 fatores latentes, para explicar a estrutura genética neutra subjacente. Em seguida, calculamos o fator
336 de inflação genômico (λ) e o modificamos até uma distribuição calibrada dep-valores foram
337 encontrados e definir taxas de descoberta falsa a uma taxa de q =0,05 usando o algoritmo de
338 Benjamini – Hochberg (François et al., 2016) .
339 Realizamos RDA usando o rda função do vegano pacote (Oksanen et al.,
340 2019) conforme implementado em Forester et al. (2018), modelando genótipos como uma função de
341 variáveis preditoras e produzindo tantos eixos restritos quanto preditores (veja o script de exemplo aqui:
342 https://popgen.nescent.org/2018-03-27_RDA_GEA.html). A multicolinearidade entre os preditores foi
343 avaliada usando o fator de inflação da variância (VIF) e, uma vez que todas as variáveis preditoras
344 apresentaram VIF <3, nenhuma foi excluída. Variáveis preditoras brutas foram escaladas e centralizadas
345 antes das análises e as atribuições da população desnmf (população ID) foram usados para controlar a
346 estrutura da população executando um RDA parcial. A significância dos eixos restritos RDA foi avaliada
347 usando oanova.cca função e eixos significativos foram então usados para identificar loci candidatos em
348 ambas as espécies. Loci candidatos foram identificados usando uma abordagem baseada na distância de
349 Mahalanobis (Capblancq et al., 2018) , o que tornou o resultado RDA comparável aos obtidos com LFMM,
350 uma vez que permitiu o ajustep-valores usando o fator de inflação genômica (λ) e definindo taxas de
351 descoberta falsa para q =0,05, conforme descrito acima (fatores de inflação genômica calculados e
352 modificados e p-as distribuições de valores para os testes LFMM e RDA são fornecidas nas Figs. S3-S8). Para
353 avaliar o impacto da estrutura genética da população em nosso número de detecções, executamos
354 análises GEA em nível de cluster adicionais (LFMM e RDA),

355 usando apenas indivíduos pertencentes ao mesmo agrupamento genético (configuração k =1 em LFMM e
356 omitindo ID de população em RDA). Finalmente, para visualizar os padrões de GEA e GPA, rodamos
357 modelos RDA adicionais excluindo loci neutros, usando os loci adaptativos candidatos combinados
358 detectados usando as análises RDA e LFMM gerais.
359 Para pesquisar as proteínas codificadas pelos genes contidos nas regiões
Artigo Aceito
360 flanqueadoras de nossos SNPs candidatos (encontrados em análises GEA e GPA),
361 sequências contig contendo loci candidatos foram primeiro submetidas ao EMBOSS Transeq
362 (http://www.ebi.ac.uk/Tools/st/emboss_transeq/) para obter as sequências de proteínas correspondentes.
363 Usamos todos os seis quadros com código padrão (tabela de códons), regiões (início-fim), recorte (sim) e
364 reverso (não). Em seguida, executamos uma análise funcional usando InterPro
365 (https://www.ebi.ac.uk/interpro/; interproscan.sh -dp –appl PfamA, TIGRFAM, PRINTS, PrositePatterns,
366 Gene3d –goterms –pathways -f tsv -o MySequences.tsv -i MySequences.faa) , pesquisando termos de
367 ontologia de gene e caminhos ao longo de uma variedade de bancos de dados de anotação (ou seja,
368 Interpro, Pfam, Tigrfam, Prints, PrositePattern e Gene3d).
369
370 Mapeamento da variação genética adaptativa
371 Para mapear a variação genética adaptativa, usamos o adegenet pacote (Jombart e Ahmed,
372 2011) para executar uma Análise de Componente Principal Espacial (sPCA) nos loci adaptativos candidatos
373 combinados detectados em análises GEA e GPA usando LFMM geral e RDA (os resultados para loci
374 interseccionados são apresentados na Fig. S15). sPCA é um método multivariado espacialmente explícito
375 que produz pontuações que resumem a variabilidade genética e a estrutura espacial entre os indivíduos
376 (Jombart et al., 2008) . A estrutura espacial é estimada por meio de um índice de Moran que se baseia na
377 comparação das frequências alélicas observadas em um indivíduo com os valores observados em
378 indivíduos vizinhos. Esses indivíduos vizinhos podem ser definidos por redes de conexão distintas, que em
379 nosso caso foram definidas para uma vizinhança baseada na distância, conforme indicado para
380 distribuições agregadas (Jombart et al., 2008) . O Índice de Moran gera dois tipos de estruturação espacial:
381 estrutura global, que reflete autocorrelação espacial positiva e estrutura local, que reflete autocorrelação
382 espacial negativa (Jombart et al., 2008) . Para decidir se as estruturas globais e / ou locais devem ser
383 interpretadas e, portanto, retidas nas análises sPCA, usamos os testes globais e locais propostos por
384 Jombart & Ahmed (2011). Os três primeiros eixos retidos foram então interpolados em grades de resolução
385 de 10 metros cobrindo nossa área de estudo, e o

386 rasters resultantes usados para criar um composto RGB, usando a função Merge no QGIS 3.4 (veja scripts
387 de exemplo aqui: https://github.com/rojaff/LanGen_pipeline). Os padrões de cores resultantes
388 representam a semelhança na composição genética adaptativa.
389 Para prever os genótipos adaptativos associados aos dados ambientais coletados de locais
390 de restauração (a mina exaurida altamente degradada e a Serra da Bocaina moderadamente

Artigo Aceito
391 perturbada, Fig. 2), empregamos os modelos GEA-RDA ajustados nos loci adaptativos candidatos
392 combinados detectados pelo LFMM global e RDA (consulte a seção anterior), e executou o
393 Predict.cca função do vegano pacote. Amostras ambientais (solo e clima) desses locais foram,
394 portanto, usadas para prever pontuações RDA, com base nos modelos GEA-RDA ajustados. Em
395 seguida, executamos umk-significa análise de agrupamento (usando distâncias euclidianas) em
396 pontuações RDA observadas e previstas para indivíduos de cada espécie, usando todos os eixos
397 restritos significativos e permitindo que o número de agrupamentos varie entre dois e cinco (três
398 planaltos de Canga e dois locais de restauração). Usamos oNbClust pacote (Charrad et al., 2014)
399 para obter o número ótimo de clusters escolhidos por 30 algoritmos diferentes. O agrupamento dos
400 escores de RDA observados e previstos sugere que os indivíduos da amostra possuem adaptações
401 associadas às condições ambientais dos locais de restauração. As pontuações RDA observadas e
402 previstas colocadas em grupos diferentes, por outro lado, indicam que nenhum dos indivíduos da
403 nossa amostra parece adaptado às condições ambientais dos locais de restauração.
404
405 Resultados
406
407 Diversidade genética e estrutura genética neutra
408 Depois de filtrar por qualidade, profundidade de leitura, frequências de alelos menores, dados
409 ausentes, desequilíbrio de ligação, equilíbrio de Hardy-Weinberg e loci atípicos, retemos 7.376 e
410 3.496 SNPs neutros e independentes e 177 e 163 indivíduos para M. acutistipula e D. apurensis,
411 respectivamente, que foram então usados para avaliar a diversidade genética e a estrutura
412 populacional. Ambas as abordagens de agrupamento genético (snmf e DAPC) indicou a presença de
413 três agrupamentos nas duas espécies de estudo (Fig. S9). Os níveis de mistura eram baixos, todos os
414 indivíduos foram corretamente atribuídos à sua origem nas terras altas do Canga (Fig. 2), e havia
415 diferenciação entre clusters genéticos (par a par FST os valores foram significativos e
416 variaram entre 0,11 e 0,13 em M. acutistipula e entre 0,16 e 0,27 pol. D. apurensis).

417 A heterozigosidade esperada e a diversidade de nucleotídeos foram semelhantes em ambas as espécies, mas os
418 coeficientes de endogamia foram menores e os tamanhos populacionais efetivos maiores em M. acutistipula (
419 Tabela 1). Ambas as espécies apresentaram coeficientes de endogamia significativos em todos os agrupamentos
420 genéticos e exibiram os maiores tamanhos populacionais efetivos na Serra Sul (Tabela 1). Detectamos
421
Artigo Aceito
autocorrelação espacial em parentesco genético dentro de agrupamentos genéticos em cada espécie (Fig. S10-
422 S11). Em ambos, a força da autocorrelação espacial foi maior na Serra Sul, onde o tamanho da vizinhança
423 genética era maior (~ 5km, Fig. S10-S11).
424
425 Associações genótipo-ambiente e genótipo-fenótipo
426 Depois de filtrar por qualidade, profundidade de leitura, frequências de alelos menores, dados
427 ausentes e desequilíbrio de ligação, retemos 9.480 e 4.720 SNPs e 177 e 163 indivíduos para M.
428 acutistipula e D. apurensis, respectivamente. Usando LFMM, identificamos um total de 198 e 154
429 contigs (RAD-tags) contendo GEA, e 94 e 185 contigs contendo GPA emM. acutistipula e D.
430 apurensis, respectivamente (Tabelas S2 e S3). Apenas os dois primeiros eixos restritos das
431 análises RDA foram significativos (ANOVA'sp < 0,05) nas análises GEA e GPA para ambas as
432 espécies. RDA revelou um total de 403 e 225 contigs contendo GEA significativo e 281 e 119
433 contigs contendo GPA significativo emM. acutistipula e D. apurensis
434 respectivamente (Fig. 3, Fig. S12 e Tabelas S2 e S3). EmM. acutistipula 344 contigs foram mais
435 correlacionados às variáveis climáticas e 69 às variáveis do solo, enquanto em D. apurensis 203
436 contingências foram mais correlacionadas às variáveis climáticas e 23 às variáveis do solo. Combinando
437 os dois métodos (LFMM e RDA), encontramos um total de 588 contigs mostrando GEA emM. acutistipula e
438 360 em D. apurensis, e 368 contigs mostrando GPA em M. acutistipula e 288 em D. apurensis.
439 Apenas 108 contigs continham GEA e GPA em M. acutistipula e 65 em D. apurensis.

440 Finalmente, as análises de GEA em nível de cluster revelaram muitas detecções exclusivas de cluster em ambas
441 as espécies (Fig. S13).
442 Modelos RDA subsequentes usando os loci adaptativos candidatos combinados detectados
443 usando análises gerais de LFMM e RDA revelaram padrões de nível de população de GEA e GPA (Fig.
444 4). EmM. acutistipula Os modelos GEA e GPA explicaram 17% e 5% da variância total, respectivamente,
445 enquanto em D. apurensis Os modelos GEA e GPA explicaram 31% e 9% da variância total. Em ambas as
446 espécies, as cargas por eixo foram maiores para as variáveis climáticas (0,01-0,89 paraM. acutistipula e
447 0,01-0,83 para D. apurensis) do que para variáveis de solo (0,005-0,47 para M.

448 acutistipula e 0,003-0,59 para D. apurensis). Em M. acutistipula, o primeiro e o segundo eixos dividem
449 os indivíduos em três grandes grupos GEA correspondentes ao seu local de amostragem. Enquanto
450 indivíduos da Serra Norte mostraram associações com maior isotermalidade (bio03) e maiores
451 temperaturas de inverno (bio06), indivíduos da Serra Sul mostraram associações com temperaturas
452 mais quentes no inverno e precipitação mais úmida da estação seca (bio17). Indivíduos da Serra da
Artigo Aceito
453 Bocaina exibiram associações com pH mais alto (solos menos ácidos) e precipitação da estação seca
454 mais seca (Fig. 4a). Interessantemente,Dioclea apurensis mostraram padrões GEA semelhantes com
455 base na isotermalidade (bio03), temperaturas de inverno (bio06) e pH, apesar de usar um conjunto
456 ligeiramente diferente de preditores (Fig. 4b). Por outro lado, o primeiro e o segundo eixos restritos
457 dividiram os indivíduos em dois grandes grupos GPA emM. acutistipula (Fig. 4c), o primeiro
458 englobando indivíduos da Serra Norte (que apresentaram associações com maiores SLA e Mn, e
459 menores P), e o segundo indivíduos da Serra Sul e Serra da Bocaina (apresentando associações com
460 menores SLA e Mn). EmD. apurensis, o primeiro e o segundo eixo dividem os indivíduos em três
461 grupos GPA, com indivíduos da Serra Norte apresentando associações com maior teor foliar de Fe e
462 Mn e menor teor de P, enquanto os da Serra Sul apresentaram associações com maior N e os da
463 Serra da Bocaina com SLA e N / P mais baixos (Fig. 4d). Os nutrientes ao nível da folha foram
464 fracamente correlacionados com os nutrientes ao nível do solo (os coeficientes de correlação de
465 Pearson variaram entre -0,07 e 0,39 paraM. acutistipula e entre -0,04 a 0,24 para D. apurensis).
466
467 Um subconjunto dos contigs contendo SNPs candidatos mostrou anotações InterPro (105 contigs
468 em M. acutistipula e 59 em D. apurensis). Os genes adaptativos candidatos foram associados a diferentes
469 funções, incluindo transporte intracelular, atividade catalítica, síntese de hormônios, processos
470 metabólicos e de redução de oxidação e resposta de defesa da planta (uma lista completa de genes
471 candidatos com anotações InterPro é apresentada na Tabela S4). Apenas 17 genes adaptativos putativos
472 contendo anotações InterPro foram compartilhados entre as duas espécies (Tabela S5).
473
474 Mapeamento da variação genética adaptativa
475 A combinação (união) de loci adaptativos candidatos detectados por meio de GEA e GPA resultou em 914
476 loci para M. acutistipula e 614 loci para D. apurensis. Uma vez que nenhum dos testes de estrutura local
477 sPCA foi significativo, mantivemos os três primeiros eixos globais positivos, que explicaram a maior parte
478 da variância em ambas as espécies (51% e 81% da variância total para M. acutistipula

479 e D. apurensis respectivamente, Fig. S14). Estes revelaram uma estrutura genética adaptativa semelhante em
480 ambas as espécies (Fig. 5), com duas unidades adaptativas na Serra Norte e uma na Serra da Bocaina.
481 Mimosa acutistipula no entanto, exibiu um padrão adaptativo clinal na Serra Sul, enquanto D. apurensis
482 nao fiz. Padrões espaciais semelhantes foram encontrados ao usar os loci interceptados (ou seja, aqueles
483 compartilhados por GEA e GPA; Fig. S15). Finalmente, os genótipos previstos associados às características
Artigo Aceito
484 climáticas e do solo de um local de mineração altamente degradado não se agruparam com nenhuma das
485 populações de nosso estudo em nenhuma das espécies (Fig. 6a e 6b). Em contraste, a maioria dos
486 genótipos previstos para as condições ambientais da moderadamente perturbada Serra da Bocaina
487 agrupados com indivíduos coletados no mesmo local, revelando procedências locais são supostamente
488 adaptados às condições ambientais locais (Fig. 6c e 6d).
489
490 Discussão
491
492 O delineamento das áreas de abastecimento de sementes exige a consideração da história evolutiva, da
493 diversidade genética e da probabilidade de os indivíduos se adaptarem às condições ambientais dos locais de
494 restauração visados (Breed et al., 2019) . Aqui, empregamos uma abordagem genômica de paisagem
495 abrangente para caracterizar a variação genética neutra e adaptativa e fornecer informações para auxiliar na
496 restauração de um local de mineração altamente degradado e um altiplano de Canga moderadamente
497 perturbado da Província Mineral de Carajás. Discutimos como nossos resultados podem ajudar a definir
498 estratégias de comprovação ajustadas ao local e argumentamos que nossos métodos podem ser mais
499 amplamente aplicados para auxiliar outras iniciativas de restauração e reabilitação.
500 Vários estudos enfatizaram a importância de evitar a endogamia, aumentar a

501 diversidade genética para manter o potencial evolutivo e minimizar a depressão por
502 endogamia em populações restauradas (Broadhurst et al., 2008; Hufbauer et al., 2015;
503 Mijangos et al., 2015; Weeks et al. ., 2011) . A avaliação da estrutura genética neutra
504 fornece informações sobre como minimizar a depressão por exogamia, evitando a
505 mistura de indivíduos de diferentes linhagens evolutivas (Mijangos et al., 2015) . As
506 estimativas do tamanho da vizinhança genética, por outro lado, fornecem dicas sobre
507 como amostrar indivíduos não relacionados nas áreas de origem de sementes para
508 aumentar a diversidade genética e reduzir o risco de depressão por endogamia em
509 populações restauradas (Breed et al., 2019; Krauss e Koch, 2004) .

510 sensu (Funk et al., 2012) ), que podem ser consideradas procedências distintas para
511 minimizar o risco de depressão por exogamia (Frankham et al., 2017) . Dentro dessas
512 zonas, nossas estimativas de tamanho de vizinhança genética fornecem informações sobre
513 estratégias de abastecimento de sementes dentro do cluster para maximizar a diversidade
514 genética. Em Serra Sul, por exemplo, não se espera que as fontes de sementes localizadas a
Artigo Aceito
515 5 Km de distância estejam relacionadas (Fig. S10-S11), e compreenderiam uma
516 representação melhor da variação genética permanente do que indivíduos coletados em
517 escalas espaciais menores. Estimativas efetivas do tamanho da população (Tabela 1), no
518 entanto, indicam que nenhum de nossos agrupamentos genéticos observados
519 provavelmente experimentará depressão por endogamia em um futuro próximo com base
520 na regra 50/500 (Jamieson e Allendorf, 2012) .
521 Os padrões de adaptação local acabarão por determinar a capacidade das plantas de
522 colonizar com eficácia e recuperar rapidamente os locais perturbados (Mijangos et al., 2015) .
523 Usando os loci candidatos combinados detectados em GEA e GPA, usando métodos univariados
524 e multivariados, melhoramos a detecção de sinais adaptativos de locus único e múltiplos.
525 (Mahony et al., 2019; Talbot et al., 2016; Vangestel et al., 2018) . Curiosamente, mais interseções
526 entre GEA e GPA foram encontradas ao usar RDA do que ao usar LFMM (Fig. 3), indicando que a
527 maioria das adaptações às condições ambientais locais que expressam fenótipos diferenciais
528 são poligênicas (Forester et al., 2018) . Na verdade, a maioria das características relacionadas à
529 aptidão em plantas têm uma base poligênica (Falke et al., 2013) , incluindo tolerância ao solo
530 com níveis fitotóxicos de metais pesados (Arnold et al., 2016) . No entanto, observamos que
531 outros genes que ocorrem nas regiões flanqueadoras de nossos SNPs candidatos podem ser
532 responsáveis pelos sinais adaptativos detectados, e que muitas sequências não
533 corresponderam às proteínas traduzidas ou encontraram correspondências com proteínas não
534 caracterizadas. Ainda assim, as mais frequentes entre nossas proteínas candidatas identificadas
535 estão envolvidas na defesa da planta e respostas ao estresse (incluindo transcriptase reversa,
536 domínio semelhante a ribonuclease H, dobra de NTPase de alça P, repetição rica em leucina e
537 taumatina) ou processos metabólicos básicos (repetição de pentatricopeptídeo , domínio da
538 proteína quinase, domínio semelhante à ferredoxina da nitrito / sulfito redutase, principal
539 proteína intrínseca e domínio motor da cinesina), sugestivo de adaptações a ambientes hostis
540 (Tabelas S4 e S5).

541 pressões (Arnold et al., 2016; Yeaman et al., 2016) . Esses genes compartilhados, portanto,
542 constituem alvos primários para estudos funcionais que investigam a base molecular da adaptação a
543 ambientes Canga e minelands.
544 As análises GEA em nível de cluster revelaram muitas detecções exclusivas de cluster em ambas as
545 espécies (Fig. S13), sugerindo que a adaptação microgeográfica pode desempenhar um papel na condução
Artigo Aceito
546 de padrões genéticos dentro das terras altas (Richardson et al., 2014) . Para visualizar e compreender
547 melhor os mecanismos por trás do GEA e GPA observados, executamos RDAs adicionais usando os loci
548 adaptativos candidatos combinados detectados em nossas análises gerais de LFMM e RDA. Como
549 esperado, encontramos padrões semelhantes de GEA em ambas as espécies (Figs. 4a e 4b). Curiosamente,
550 os GEA mais fortes foram encontrados com variáveis climáticas em ambas as espécies, apesar da
551 resolução grosseira dos dados do WorldClim e da estreita variação climática encontrada em nossa área de
552 estudo (Fig. S1). Nossos resultados, portanto, sugerem que o clima local constitui um importante filtro
553 ambiental que impulsiona a adaptação local, como encontrado em outras espécies de ambientes Canga
554 (Lanes et al., 2018) e climas temperados (Pais et al., 2017; Pluess et al., 2016) . EmM. acutistipula, As
555 populações da Serra Norte mostraram associações com maiores SLA, sugerindo que as condições
556 climáticas ou de solo na Serra Norte são mais favoráveis ao crescimento das plantas (He et al., 2018) .
557 Indivíduos da Serra da Bocaina e Serra Sul apresentaram associações com menor SLA e menor
558 concentração de vários micronutrientes e macronutrientes, sugerindo que o aumento da espessura da
559 folha nesses indivíduos evita a dissecção ou preserva melhor os nutrientes escassos (Costa-Saura et al.,
560 2016) . Em contraste, associações de SLA emD. apurensis não separou as terras altas do Canga,
561 mostrando que a influência da variação climática no SLA é diferente entre as espécies (Gong e Gao,
562 2019; Liu et al., 2017) . EmD. apurensis, diferentes associações de genótipos com micro e
563 macronutrientes foliares separados das terras altas (Fig. 4d), sugerindo diferentes requisitos
564 fisiológicos ou disponibilidade de nutrientes em cada local. Baixas correlações entre as
565 concentrações de Fe e Mn nas folhas e no solo, sugerem que as espécies de nosso estudo estão
566 controlando a absorção de nutrientes, o que as torna adequadas para a restauração de áreas com
567 alta concentração desses metais. No entanto, experimentos controlados de jardim comum ou
568 transplante recíproco são necessários para avaliar o crescimento e o desempenho geral de diferentes
569 genótipos (fontes) em diferentes solos e climas (Aitken e Bemmels, 2016; Rellstab et al., 2015) .
570 Nossos mapas de adaptação local revelam áreas contendo adaptações locais semelhantes (cores) em cada
571 espécie (Fig. 5, Fig. S15), que podem ser usadas para delinear estratégias de abastecimento de sementes. Em

572 Em contraste com os Modelos de Dissimilaridade Generalizada (GDM) comumente empregados
573 (Gugger et al., 2018; Rossetto et al., 2019; Shryock et al., 2015; Supple et al., 2018) , nossa abordagem
574 de mapeamento baseada em sPCA permite incorporar GPA e previsão de variação genética
575 adaptativa a partir de dados no nível do local, o que é particularmente útil para áreas sem camadas
576 ambientais de alta resolução. Além disso, o sPCA explica explicitamente a autocorrelação espacial na
Artigo Aceito
577 composição genética, que provavelmente desempenha um papel importante explicando os padrões
578 de adaptação local (Lesica e Allendorf, 1999; Richardson et al., 2014) (ver Fig. S16 para mapas de
579 adaptação alternativos gerados usando GDM). Nossos mapas de adaptação mostraram adaptações
580 semelhantes em toda a Serra da Bocaina (ou seja, uma única unidade adaptativa), e a maioria dos
581 genótipos previstos associados a amostras ambientais locais (clima e solo) agrupadas com indivíduos
582 amostrados na Serra da Bocaina. Este resultado indica que procedências locais são provavelmente
583 mais bem adaptadas às condições ambientais locais neste local sob climas contemporâneos (Fig. 6c e
584 6d), e apóia as recomendações feitas por Lesica & Allendorf
585 (1999) para a restauração de locais moderadamente perturbados. Como o tamanho da vizinhança genética na
586 Serra da Bocaina era de aproximadamente 3 Km para ambas as espécies, nossos resultados sugerem que as
587 sementes locais coletadas em áreas separadas por pelo menos 3 Km maximizariam a diversidade genética neste
588 local.
589 Em contraste, os genótipos previstos para os dados ambientais coletados no local da mina
590 degradada não se agruparam com nenhuma das populações de nosso estudo em nenhuma das
591 espécies (Fig. 6a e 6b). Isso indica que nenhum dos genótipos que amostramos de habitats naturais
592 se sobrepõe às condições ambientais multivariadas presentes no local da mina. Neste caso, a mistura
593 de genótipos contendo diferentes adaptações locais pode ser considerada a melhor opção para
594 maximizar o potencial evolutivo e facilitar a adaptação a novos ambientes (Lesica e Allendorf,
595 1999) . As sementes podem ser obtidas a partir de todas as unidades adaptativas identificadas (cores nos mapas
596 sPCA); e dentro dessas unidades eles poderiam ser amostrados em áreas separadas pelo tamanho da vizinhança
597 genética para aumentar ainda mais a diversidade genética. Embora a mistura de indivíduos de diferentes
598 unidades de manejo possa resultar em depressão por procriação (Hufford e Mazer, 2003; Weeks et al., 2011) , o
599 risco é provavelmente marginal para essas espécies de estudo, que estão amplamente distribuídas por todo o
600 continente (Dutra e Morim, 2015; Queiroz, 2015) . Além disso, as condições ambientais e as comunidades de
601 plantas apresentam semelhanças notáveis em toda a Província Mineral de Carajás quando comparada a outras
602 campo rupestre formações (Zappi et al., 2019) . Tal

Combinando genótipo, fenótipo e dados ambientais para delinear estratégias de proveniência ajustadas ao local para restauração ecológica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Combinando genótipo, fenótipo e dados ambientais para delinear estratégias de proveniência ajustadas ao local para restauração ecológica

Enviado por

Direitos autorais:

Formatos disponíveis

1

2 MISS CAROLINA DA SILVA CARVALHO (Orcid ID: 0000-0002-0063-2185) MISS

11 Combinando genótipo, fenótipo e dados ambientais para delinear

12 estratégias de proveniência ajustadas ao local para restauração

2 Colorado State University, Fort Collins-CO, EUA

3 Departamento de Ecologia, Universidade de São Paulo, São Paulo-SP, Brasil.

34 genômicos compreendendo milhares de polimorfismos de nucleotídeo único de duas espécies de plantas

37 identificamos associações genótipo-fenótipo-ambiente, mapeamos a variação genética adaptativa e predizemos

42 ser mais amplamente aplicados para auxiliar outras iniciativas de restauração.

45 genômica da paisagem, adaptação local, sequenciamento RAD, restauração genômica,

46 polimorfismos de nucleotídeo único (SNP).

Este artigo é protegido por direitos autorais. Todos os direitos reservados

63 variáveis ambientais na composição genética, a fim de identificar quais indivíduos ou

74 de proveniência do que aquelas baseadas no clima futuro (Gastauer et al.,

Este artigo é protegido por direitos autorais. Todos os direitos reservados

79 restaurar as funções e processos do ecossistema, prevenir a erosão do solo e proteger a diversidade

86 ambientais no solo). Finalmente, as estratégias de provisão ajustadas ao local precisam considerar as

88 provisão centradas no clima focam exclusivamente no clima.

89 O grau de perturbação pode desempenhar um papel importante na

Este artigo é protegido por direitos autorais. Todos os direitos reservados

138 programas de reabilitação de minas na região empregam

Este artigo é protegido por direitos autorais. Todos os direitos reservados

168 ao local diferentes para a restauração de um local de mina degradado

Este artigo é protegido por direitos autorais. Todos os direitos reservados

Este artigo é protegido por direitos autorais. Todos os direitos reservados

211 matéria orgânica, Zn e Na em ambas as espécies).

221 foram todas abaixo de | r | <0,6 (Fig. S2).

Este artigo é protegido por direitos autorais. Todos os direitos reservados

233 | <0,6; Fig. S2).

256 cortadas usandoFerramentas BBMap

257 (http://sourceforge.net/projects/bbmap/) para excluir adaptadores Nextera e um contig de referência foi

Este artigo é protegido por direitos autorais. Todos os direitos reservados

271 D. apurensis (profundidade mínima de sequenciamento de 14 e 9, respectivamente).

282 Isso representou a estrutura da população (avaliada usando o

292 modelo genético de população subjacente (Jombart e Ahmed, 2011) .

Este artigo é protegido por direitos autorais. Todos os direitos reservados

297 k usando k-means clustering e o Bayesian Information Criterion (BIC). Considerando o

Este artigo é protegido por direitos autorais. Todos os direitos reservados

328 script de exemplo aqui: https://bcm-uga.github.io/lfmm/articles/lfmm). Em vez de usar preditor bruto

333 (variáveis ambientais) , e N / P, P, Fe (variáveis fenotípicas) em ambas as espécies. Executamos

338 Benjamini – Hochberg (François et al., 2016) .

342 https://popgen.nescent.org/2018-03-27_RDA_GEA.html). A multicolinearidade entre os preditores foi

354 análises GEA em nível de cluster adicionais (LFMM e RDA),

Este artigo é protegido por direitos autorais. Todos os direitos reservados

358 detectados usando as análises RDA e LFMM gerais.

365 (https://www.ebi.ac.uk/interpro/; interproscan.sh -dp –appl PfamA, TIGRFAM, PRINTS, PrositePatterns,

366 Gene3d –goterms –pathways -f tsv -o MySequences.tsv -i MySequences.faa) , pesquisando termos de

368 Interpro, Pfam, Tigrfam, Prints, PrositePattern e Gene3d).

385 de 10 metros cobrindo nossa área de estudo, e o

Este artigo é protegido por direitos autorais. Todos os direitos reservados

387 de exemplo aqui: https://github.com/rojaff/LanGen_pipeline). Os padrões de cores resultantes

388 representam a semelhança na composição genética adaptativa.

390 de restauração (a mina exaurida altamente degradada e a Serra da Bocaina moderadamente

395 seguida, executamos umk-significa análise de agrupamento (usando distâncias euclidianas) em

Este artigo é protegido por direitos autorais. Todos os direitos reservados

423 genética era maior (~ 5km, Fig. S10-S11).

435 correlacionados às variáveis climáticas e 69 às variáveis do solo, enquanto em D. apurensis 203

439 Apenas 108 contigs continham GEA e GPA em M. acutistipula e 65 em D. apurensis.

441 as espécies (Fig. S13).

Este artigo é protegido por direitos autorais. Todos os direitos reservados

468 em M. acutistipula e 59 em D. apurensis). Os genes adaptativos candidatos foram associados a diferentes

Este artigo é protegido por direitos autorais. Todos os direitos reservados

488 adaptados às condições ambientais locais (Fig. 6c e 6d).