Você está na página 1de 11

El análisis genómico de Andamanese proporciona información sobre la antigua migración

humana en Asia y la adaptación

Mayukh Mondal, Ferran Casals, Tina Xu, Giovanni M Dall'Olio, Marc Pybus, Mihai G Netea,
David Comas, Hafid Laayouni, Qibin Li, Partha P Majumder Y Jaume Bertranpetit

Nature Genetics volumen 48 , páginas 1066 - 1070 (2016)

doi : 10.1038 / ng.3621

Descargar Citation

GenómicaGenética poblacional

Para arrojar luz sobre el poblamiento de Asia del Sur y los orígenes de las adaptaciones
morfológicas encontradas allí, analizamos secuencias de genoma completo de 10 individuos
Andamanese y las comparamos con secuencias para 60 individuos de poblaciones de la India
continental con diferentes historias étnicas y con datos disponibles públicamente de otras
poblaciones. Mostramos que todas las poblaciones asiáticas y del Pacífico comparten un único
origen y expansión fuera de África, lo que contradice una propuesta anterior de dos oleadas
independientes de migración 1 , 2 , 3 , 4.. También mostramos que las poblaciones del sur y
sureste de Asia albergan una pequeña proporción de ascendencia de un homínido extinto
desconocido, y esta ascendencia está ausente de los europeos y asiáticos orientales. Las
huellas de la selección adaptativa en los genomas de los Andamanese muestran que los
fenotipos distintivos característicos de esta población (incluida la estatura muy baja) no
reflejan un origen africano antiguo, sino que resultan de una fuerte selección natural de genes
relacionados con el tamaño del cuerpo humano.

Principal

El origen de la gente Andamanese (Islas Andamán, Bahía de Bengala, India) se ha considerado


diferente del de otras poblaciones asiáticas debido a la morfología muy distintiva llamada
'Negrito' en Andamanese y el lenguaje inclasificable que hablan 5 , 6 , 7 . Se ha sugerido que
son una reliquia viviente de una primera ola de humanos modernos fuera de África (OOA) que
utilizaron la ruta de salida del sur y no se mezclaron posteriormente con otras poblaciones 1 ,
2(Ha habido múltiples eventos OOA en la evolución humana, pero "OOA" aquí se refiere solo a
eventos fuera de África que involucran a humanos completamente modernos). Un origen
común para Andaman (y otras) poblaciones Negrito, Melanesios y aborígenes australianos se
propuso inicialmente sobre la base de las características morfológicas 1 , 2 y posteriormente
apoyado por algunos estudios genéticos [ 4] . El análisis previo de la genotipificación genómica
de varias poblaciones indias mostró que los andamaneses son una de las dos poblaciones de
referencia principales para estimar las ascendencias de las poblaciones indias 8. Sin embargo,
la falta de datos de la secuencia del genoma completo de los Andamanese tiene una
comprensión limitada de su ascendencia y la especificidad de las adaptaciones que pueden
haber dado lugar a sus características morfológicas distintivas. Si sus características distintivas
(pequeño tamaño del cuerpo, piel oscura, cabello rizado, etc.) son ancestrales o derivadas
puede potencialmente inferirse mediante el análisis de huellas de selección en sus genomas.
Estas características coinciden con las adaptaciones conocidas debido a la insularidad en
muchos grupos de animales grandes, lo que puede explicar la rápida evolución en el tamaño
corporal, una característica que comparten algunas poblaciones de homínidos extintos 9 y los
humanos actuales 10 .

Setenta individuos de la India fueron secuenciados a ~ 15 × cobertura ( Nota complementaria ),


incluidos 60 individuos de la India continental y 10 individuos de las poblaciones de Jarawa
(JAR) y Onge (ONG) en las Islas Andamán ( Figura 1 complementaria y tabla 1 complementaria)
) La población Andamanese demográficamente pequeña e históricamente aislada mostró una
mayor relación entre los individuos, así como mayores coeficientes de endogamia y carreras
más largas de homocigosis que todas las poblaciones indígenas continentales examinadas (
Figuras Suplementarias 2-4 ). De acuerdo con estudios previos 8 , 11, el análisis de
componentes principales (PCA) mostró que los Andamanese constituían un grupo
genéticamente diferente en comparación con las poblaciones de la India continental ( Figura 5
). Curiosamente, Jarawa y Onge se agruparon estrechamente, indicativos de su homogeneidad
genómica, y mostraron una falta de mezcla reciente ( figura 1a ), que se sabe que tuvo lugar en
Andaman durante el siglo pasado 12 pero no afectó a los individuos muestreados. .

Figura 1: Ascendencia de las poblaciones indias.

Figura 1

( a ) Análisis ADMIXTURE utilizando diez individuos elegidos al azar, cada uno de las
poblaciones CEU (Europea), CHB (Han chino) e YRI (Yoruba) del Proyecto de 1000 Genomas e
individuos en nuestro conjunto de datos de las siguientes poblaciones: Punjabi (PUN), Uttar
Pradesh Brahmins (UBR), Rajput (RAJ), Bengalí (BEN), Vellalar (VLR), Irula (ILA), Birhor (BIR),
Jarawa (JAR), Onge (ONG) y Riang (RIA). Los resultados se muestran para cinco componentes
ancestrales, el número óptimo. Cada barra vertical representa un individuo, con colores
correspondientes a los cinco componentes de ascendencia. ( b) Análisis de TreeMix sin
migración. Las poblaciones africanas incluyen Yoruba (YRI), Mandenka (MAD), Mbuti pigmeo
(MBT) y San (SAN), las poblaciones europeas incluyen francés (FRN) y sardos (SAR), las
poblaciones de Asia oriental incluyen Dai (DAI) y Han China (HAN), las poblaciones del Pacífico
incluyen papúes (PAP) y aborígenes australianos (AUS), los indios incluyen Birhor (BIR), Irula
(ILA) y Riang (RIA), y Andamanese incluyen Jarawa (JAR) y Onge (ONG). La información del
genoma ancestral inferido del Proyecto 1000 Genomes se usó como el grupo externo. La barra
de escala muestra diez unidades de error estándar (se), y la cantidad de deriva se traza a lo
largo de la xeje. El desplazamiento que se considera no significativo se indica con una línea
roja, lo que da como resultado tres ramas principales (RIA, HAN y DAI, ONG y JAR, y BIR e ILA)
que forman una tricotomía. ( c ) Análisis de tasa de coalescencia cruzada relativa de MSMC que
muestra la separación genética entre pares de poblaciones. En cada curva, un individuo era de
la población Jarawa y el otro era de una población tribal de la India (ILA, BIR o RIA), la
población de Onge o una población fuera de la India (FRN, DAI, PAP o YRI). El eje x muestra el
tiempo, y el eje y muestra una medida de similitud para cada par de poblaciones comparadas.

Imagen de tamaño completo

Usando varios enfoques, investigamos si los Andamanese son descendientes del mismo evento
OOA que resultó en el poblamiento de la India continental o si parte de sus orígenes se
remonta a una onda OOA anterior e independiente, como se ha propuesto para aborígenes
australianos 4 . Primero, el análisis estadístico D- 13 ( Fig. 6 complementario ) mostró que los
Andamanese comparten más alelos con cada una de las poblaciones OOA que con los africanos
subsaharianos, lo que sugiere que los andamaneses tienen un ancestro común con todas las
demás poblaciones OOA. Segundo, el análisis TreeMix 14 también apoyó a los africanos como
un grupo externo a todas las poblaciones de OOA ( Fig. 1b).), con una relación más cercana de
Andamanese con los asiáticos y los indios continentales que con las poblaciones del Pacífico.
En tercer lugar, el análisis de coalescencia cruzada relativa por MSMC 15 mostró una división
mucho más temprana para Andamanese y los africanos que para Andamanese y cualquier otra
población de OOA, con estas otras poblaciones que muestran tiempos de división similares
entre sí ( Fig. 1c ). La estimación de los tamaños de población efectivos históricos por el MSMC
sugirió un evento similar de cuello de botella para los Andamanese y todas las demás
poblaciones de OOA hace aproximadamente 50,000 años ( Figura Suplementaria 7 ). Todos
estos resultados sugieren que los Andamanese comparten su ascendencia con todas las demás
poblaciones de OOA, lo que indica una característica común para todas las poblaciones
asiáticas y del Pacífico, y es coherente con una sola migración principal de OOA.

El análisis estadístico D ( Fig. 8 complementario ) mostró que los andamaneses compartían más
alelos con las poblaciones tribales de Asia oriental, Papúa y la India continental que con los
europeos, lo que indica que los europeos son un grupo externo para todas las poblaciones
asiáticas. Tanto TreeMix ( Fig. 1b ) como el análisis estadístico D out-group ( Tabla
Suplementaria 2 ) respaldaron esta inferencia. El análisis de coalescencia cruzada relativa (
figura 1c ) también dio un resultado similar: en este análisis, la separación de andamaneses y
europeos precedió a la separación de andamaneses y asiáticos. Análisis utilizando las
secuencias del genoma europeo antiguo disponibles de La Braña, Loschbour y Stuttgart 16 , 17
,18 apoyaron nuestros resultados ( Figuras suplementarias 9-11 y Tabla complementaria 3 ),
que muestran a los europeos como la rama más distinta entre todas las poblaciones de Eurasia
y el Pacífico, incluso cuando se considera el componente Eurasiático Basal extinto de los
europeos 18 , 19 . El análisis de ADN mitocondrial también apoyó un único origen para las
poblaciones asiáticas ( Tabla 4 complementaria ).

El análisis de la contribución de las poblaciones de homínidos extintos al conjunto genético


actual también sugiere un origen único para los asiáticos modernos, incluido el Andamanese.
Los genomas Andamanese tenían una cantidad similar de Neanderthal 13 , 20 introgresión
como otras poblaciones OOA ( ~ 2-4%), lo que sugiere que la mezcla Neanderthal tuvo lugar en
una etapa muy temprana, antes de que las poblaciones OOA se separaran ( Fig. 12 ) . Por el
contrario, los papúes albergaban una proporción mucho más alta de ancestros de Denisovan
21 que cualquier otra población de OOA examinada aquí ( Fig. 13 ). todas las demás
poblaciones asiáticas examinadas (incluidas las Andamanese) tenían solo un poco más de
ancestros de Denisovan que los europeos (Suplementario Fig. 14 ), como se sugirió
anteriormente 20 . Además de esto, no se observó ninguna otra diferencia en las
contribuciones genómicas antiguas entre los andamaneses y las otras poblaciones del sur y el
este de Asia y el Pacífico.

Encontramos que las poblaciones de Andamanese, India continental y Papúa tenían ~ 2-3%
menos alelos africanos que europeos ( figura 2a ) o asiáticos orientales ( figura 2b ), como
también fue el caso de los aborígenes australianos (similar proporción aún mayor de no
compartidos) alelos). Realizamos simulaciones extensas para mostrar que esta reducción en la
proporción de alelos africanos en Andamanese no podía explicarse por el bajo tamaño efectivo
de la población de Andamanese; por lo tanto, la reducción no es causada por variantes
privadas resultantes de mutaciones específicas en el genoma Andamanese (modelo sin mezcla,
Tabla Suplementaria 5 ), por una mezcla posterior entre poblaciones europeas o asiáticas y
africanas (es decir, la reducción no puede deberse a una evento 'de regreso a África';Tabla
Suplementaria 5 y Nota Suplementaria ) o por mezcla con los humanos modernos del evento
OOA inicial que se estableció en Eurasia. En contraste, la reducción en la proporción de alelos
africanos en Andamanese podría ser causada por la mezcla con una población que divergió de
los humanos modernos hace al menos 300,000 años ( Figura 15 ). De hecho, una introgresión
de cualquier población de homínidos podría causar un sesgo en los cálculos estadísticos de D (
Nota complementaria), que generaría una señal de OOA falsa de dos ondas (para humanos
modernos) correspondiente a las poblaciones del sur de Asia y el Pacífico. La reducción de la
ascendencia africana para las poblaciones del sur de Asia tampoco puede haberse originado a
partir de la introgresión de Neanderthal o Denisovan, ya que las poblaciones de Andamanese y
Asia oriental tienen cantidades similares de ancestros bien reconocidos para estas dos
poblaciones. Una hipótesis alternativa es que la reducción del 2-3% en la ascendencia africana
se originó a partir de la mezcla con otras poblaciones de homínidos en el sudeste de Asia,
como el Homo erectus 22 o una población arcaica extinta desconocida. Un modelo de tres
poblaciones 23 confirmó esta hipótesis ( Fig. 16 complementaria y Nota complementaria ).
CalculandoD estadísticas para regiones de 50 kb con una ventana deslizante, inferimos que
esta población desconocida divergió de Neanderthals y Denisova antes de que divergieran
entre sí, como se vio inicialmente con TreeMix ( Fig. 17 ). Para identificar más regiones de ADN
específicas derivadas de esta población de homínidos, implementamos Sstar 24 en estos
fragmentos putativos y detectamos ~ 15 Mb de secuencia para cada individuo (longitud
promedio de región de 65 kb) derivados de esta población de homínidos, que se comporta
como hermana grupo a Neanderthals y Denisova o incluso divergieron antes ( Figs. 18 y 19
suplementarios ). Para los aborígenes australianos, el déficit en los alelos africanos fue aún
mayor ( ~6-7%; Fig. 2 ), sugiriendo que la reducción podría ser causada por la mezcla con
alguna población desconocida de homínidos antiguos; esta posibilidad debe confirmarse con
datos australianos adicionales. Rasmussen et al . 4 sugirieron que los aborígenes australianos
son los descendientes de la mezcla entre la primera población de OOA y las poblaciones OOA
posteriores. No fue posible detectar este primer evento OOA por análisis estadístico D ( Tablas
complementarias 6 y 7 ) o por análisis de coalescencia cruzada relativa de MSMC ( Fig. 20
suplementaria ). Nuestras simulaciones sugieren que el sesgo en D-el cálculo estadístico, que
se interpretó como el producto de la mezcla entre la primera población OOA y los aborígenes
australianos, en cambio puede explicarse por la mezcla de una población de homínidos
antiguos con aborígenes australianos.

Figura 2: Menos alelos derivados de África en indios, andamaneses, papúes y aborígenes


australianos que en europeos y asiáticos orientales.

Figura 2

Cada barra horizontal muestra el resultado de D- análisis estadístico de la forma D(W, X; Y, Z),
donde la población W es Dai francés o asiático oriental. La población X es de India (Punjabi,
Uttar Pradesh Brahmin, Rajput, Bengali, Vellalar, Irula, Birhor o Riang); Andamanese (Jarawa o
Onge); o francés, sardo, dai, chino Han, papú o aborigen australiano. La población Y es africana
(Yoruba, Mandenka, Mbuti pigmeo o San). La información del alelo ancestral del Proyecto
1000 Genomes se usa como un grupo externo (población Z). Las poblaciones están codificadas
por colores: rosa, europeo; amarillo oscuro, asiático oriental; marrón, africano; rojo,
indoeuropeo; negro, Dravidian; azul, austroasiatico; verde claro, Andamanese; amarillo,
tibetano-birmano; Verde oscuro, Islas del Pacífico y Aborigen australiano. Un valor positivo
significa que las poblaciones W e Y comparten más alelos derivados entre sí que con las
poblaciones X e Y, mientras que un valor negativo significa que las poblaciones X e Y
comparten más alelos derivados entre sí que con las poblaciones W e Y. Resultados
estadísticamente significativos (en este caso definidos porpuntaje z mayor que 3 o menor que -
3) están marcados con un asterisco. ( a ) D- resultados estadísticos para D (francés (W), X;
africano (Y), ancestral (Z)). ( b ) D - resultados estadísticos de D (Dai (W), X; africano (Y),
ancestral (Z)).

Imagen de tamaño completo

Para explicar la estructura genética de la India continental, se ha sugerido 8 que todas las
poblaciones han surgido de la mezcla entre dos componentes: (i) ancestral del norte de la India
(ANI) y (ii) ancestral del sur de la India (ASI), que está genéticamente relacionado con
Andamanese. Sin embargo, aunque el análisis ADMIXTURE ( Fig. 1a ) mostró que las
poblaciones tribales Irula (ILA) y Birhor (BIR) tienen altas cantidades de este componente ASI,
que también está presente en todas las otras poblaciones no tribales del sur de la India
examinadas (se muestra también en las referencias 11 , 25 ), análisis TreeMix ( Fig. 1b) sugirió
que los andamaneses no están directamente relacionados con este componente del sur de la
India. Por el contrario, los andamaneses están un poco más cerca de los asiáticos orientales
que de estas dos poblaciones indias tribales. Además, las secuencias de Andamanese no
compartían ascendencia directa con las secuencias aborígenes de Australia y Papuan probadas
( Fig. 1b ), en contraste con lo que tradicionalmente se ha supuesto debido a las similitudes
morfológicas entre estas poblaciones 1 .
Como hemos demostrado que los andamaneses y otras poblaciones asiáticas modernas tienen
un origen común, planteamos la hipótesis de que el fenotipo distinto de los andamaneses
debería haberse originado por la adaptación reciente a su entorno. Para detectar la selección
positiva, utilizamos el método de aumento jerárquico (HB), un marco de clasificación de
aprendizaje automático que aprovecha la capacidad combinada de algunas pruebas de
selección para descubrir las características esperadas bajo el modelo de barrido riguroso
mientras controla la demografía específica de la población, logrando mayor poder que pruebas
individuales y una baja tasa de resultados falsos positivos 26. Encontramos unas 1.000
regiones genómicas que tenían huellas significativas de selección positiva entre los
Andamanese (212 regiones, que abarcan 107 genes, en el modelo de barrido completo
completo y 805 regiones, que abarcan 509 genes, en el modelo de barrido incompleto
incompleto). Entre estos, encontramos un exceso significativo de genes relacionados con la
morfología del cuerpo, con señales en 11 de los 107 genes para barridos selectivos completos
(Yates χ 2 = 5,70, P = 0,02) y 40 de los 509 genes para barridos incompletos (Yates χ 2 = 9.495,
P = 0.0021) relacionado con la altura (según la Base de datos de la Asociación de genética, GAD
27) Otras regiones bajo selección positiva incluyeron genes relacionados con la obesidad o la
forma y composición corporal. Estos resultados apuntan a una presión selectiva sobre el
tamaño corporal, probablemente relacionada con la baja estatura (de hecho, la muy baja
estatura de Andamanese puede ser reconocida a partir de genotipos individuales en SNPs
relacionados con la altura; Fig. 21 complementaria ); esta selección podría representar un
enanismo insular, una adaptación bien conocida de animales grandes a un entorno restringido
que predice un estado derivado de la morfología de los andamaneses. Estos resultados, por lo
tanto, proporcionan información sobre las bases biológicas de tales adaptaciones, también
descritas recientemente en Cerdeña 9 .

Nuestro análisis apoya un modelo distinto para el asentamiento humano de Asia y el Pacífico,
con dos nuevos conocimientos ( Fig. 3 ): (i) Las poblaciones asiáticas, incluidas las del Pacífico,
corresponden a un solo origen y expansión OOA, compartiendo un mayor reciente ancestro
común entre ellos que con los europeos (nuestros análisis no apoyan la hipótesis de dos
eventos OOA independientes, postulados hace mucho tiempo sobre la base de la apariencia
física 1 y aparentemente confirmados por la genética 4), y (ii) las poblaciones continentales
indias, andamanesas, papúas y aborígenes australianos (pero no asiáticos orientales) llevan
contribuciones genómicas de una población de homínidos extinguida, con una mezcla que
oscila entre el 2-3% (la mezcla es más alta en australianos, pero esta estimación para ser
confirmado con nuevos datos). Nuestros resultados no indican si la introgresión deriva del
mismo homínido en todas las poblaciones, pero en el caso de los Andamanese ( Fig. 22
complementaria ) hemos demostrado que proviene de una nueva población desconocida de
homínidos, que probablemente se separó muy temprano en el árbol de homínidos Además,
hemos demostrado que la mezcla de hominina en estas poblaciones puede causar un sesgo en
D-cálculo estadístico que puede interpretarse erróneamente como una primera migración de
OOA. Finalmente, la morfología distintiva de los Andamanese probablemente se originó a
partir de una fuerte selección adaptativa, como lo demuestra el exceso de genes en selección
relacionados con la altura y la masa corporal, lo que permite comprender la biología básica de
una adaptación compleja a un entorno insular.
Figura 3: Modelo de flujo de genes en Asia.

figura 3

Los recuadros rojos representan homínidos no africanos extintos que introgresaron a los
humanos modernos; estas introgresiones están marcadas con líneas punteadas. Los cuadros
verdes representan poblaciones que pueden haber mezclado con el nuevo homínido
desconocido. Las poblaciones de Andamanese e India se analizan completamente aquí; otros
tendrán que estudiarse más a fondo en el futuro. La resolución correcta de la tricotomía (signo
de interrogación) requerirá más datos.

Imagen de tamaño completo

Métodos

Muestras

En total, se recogieron 70 muestras de diez poblaciones indias de diferentes regiones


geográficas, afiliaciones lingüísticas y categorías sociales ( Tabla 1 complementaria ). Las diez
poblaciones fueron Punjabi (PUN), casta superior Uttar Pradesh Brahmin (UBR), Rajput (RAJ),
bengalí (BEN), Vellalar (VLR), Irula (ILA), Birhor (BIR), Jarawa (JAR), Onge ( ONG) y Riang (RIA).
Se tomaron muestras de sangre y saliva con consentimiento informado voluntario de los
participantes. Se puede encontrar más información sobre las poblaciones en Basu et al . 11. El
protocolo de estudio fue aprobado por los comités de ética institucional del Indian Statistical
Institute (la institución principal de PPM cuando las muestras fueron recolectadas y
anonimizadas), el Instituto Nacional de Genómica Biomédica y, para la Universitat Pompeu
Fabra, el Comité de Investigación. Clínica del Pac de Salut MAR.

También se usaron muestras adicionales para comprender las poblaciones indias desde una
perspectiva global. Usamos 1000 Genomes Project Phase datos 28 , Great Ape Genome Project
(GAGP) datos 29 , datos de alta cobertura de tres aborígenes australianos 30 y datos de alta
cobertura para nueve yoruba (YRI) y cinco residentes de Utah con Europa del norte y
occidental ascendencia (CEU) 31 . Usamos algunas secuencias del genoma antiguo: Malta 16 ,
La Braña 17 , Loschbour y Stuttgart 18 . Neanderthal 20 y Denisova 21los datos se usaron para
calcular el nivel de mezcla de estas subespecies en las poblaciones indias. Utilizamos el archivo
de alineación ancestral del Proyecto Genomas 1000 32 para identificar alelos ancestrales.

Secuenciación

La secuenciación del genoma completo se realizó en dos lugares diferentes (en BGI Shenzhen y
el Instituto Nacional de Genómica Biomédica (NIBMG)) utilizando tecnología Illumina.
Cincuenta de las 70 muestras fueron secuenciadas en BGI Shenzhen, y 20 fueron secuenciadas
en NIBMG ( Tablas complementarias 1 y 8 ). Se construyeron bibliotecas de secuenciación con
un tamaño de inserción de ~ 500 pb, y se generaron lecturas de extremos emparejados en la
plataforma HiSeq 2000. Las lecturas de secuencia en bruto se mapearon al genoma de
referencia hg19 usando BWA 33 . Los duplicados se eliminaron con herramientas de Picard.
Seguimos las recomendaciones de mejores prácticas de GATK 2.8-1 (ref. 34), utilizando
IndelRealigner y BaseRecalibrator con sus valores predeterminados. Para IndelRealigner,
utilizamos 1000 Genomes Project Phase 1 indel archivos de intervalo, y para BaseRecalibrator
usamos dbSNP 137. Las variantes fueron llamadas por HaplotypeCaller de GATK. Después de la
creación de los archivos vcf sin formato, utilizamos VariantRecalibrator de GATK en autosomes
utilizando dbSNP 137, HapMap 3.3, 1000 Genomes Project Omni 2.5 y 1000 Genomes Project
Phase 1 SNP con alta confianza y Mills y 1000 Genomes Project con indels de patrón oro para
asignar una probabilidad bien calibrada para cada variante; todos estos archivos se
descargaron del sitio Broadnet ftp (5 de noviembre de 2013) tal como se describe en el sitio
web de GATK. La cobertura promedio para los autosomas fue ~ 15 ×, y la proporción del
genoma que era accesible era cercana al 100% (Tabla Suplementaria 8 ). Aunque la
secuenciación se realizó en dos institutos diferentes, el análisis de PCA y ADMIXTURE ( Nota
complementaria ) demostró un agrupamiento muy ajustado para muestras de la misma
población, lo que sugiere que las influencias de los dos centros de secuenciación no fueron
detectables. Para verificar la calidad de los datos y detectar el poder de nuestra inferencia,
realizamos varias pruebas ( Figuras suplementarias 23-38 y Tablas suplementarias 9-17 );
algunos de ellos se describen brevemente aquí, pero para más detalles, consulte la Nota
complementaria .

Se correlaciona, endogamia y homocigosidad.

La relación se calculó usando el programa KING 35 con 13,679,600 SNPs bialélicos


autosómicos. La endogamia se calculó mediante vcftools 36 utilizando los mismos SNP y los
mismos parámetros predeterminados. Se ejecuta de homozygosity fueron detectados por
PLINK v1.07 (ref. 37 ) usando 4475795 autosómica SNPs no ligados bialélicos con parámetros
por defecto. Los SNP se desvincularon según el método del factor de inflación de varianza (VIF)
implementado en PLINK con un tamaño de ventana de 50 SNP, un tamaño de paso de 5 SNP y
un factor de inflación de varianza de 2.

Análisis de componentes principales.

SmartPCA del paquete EIGENSOFT 38 se usó para PCA. Solo mantuvimos SNP bialélicos
autosómicos que tenían una frecuencia de alelos minoritarios (MAF) de al menos 0,05.
También eliminamos los SNP que tenían información faltante para cualquier individuo. Solo se
guardaron diez individuos por población a partir de 1000 datos del Proyecto Genomas para
evitar el sesgo en el tamaño de la muestra.

Análisis de mezcla.
ADMIXTURE 39 se usó para calcular la cantidad de mezcla por individuo con los mismos filtros
que en PCA. Para determinar el número óptimo de poblaciones ancestrales ( K ), utilizamos K =
2-6, realizando diez iteraciones para cada valor K. El mejor valor de K se estimó utilizando el
método de error de validación cruzada implementado en ADMIXTURE.

Análisis de MSMC.

El tamaño efectivo de la población y la separación de la población a lo largo del tiempo se


calcularon utilizando MSMC 15 . Solo se usaron autosomas. Se siguieron las recomendaciones
de MSMC para crear archivos de entrada de archivos BAM. Modulamos genomas utilizando
1000 Genomes Project Phase 3 data como referencia con SHAPEIT 40 .

D- análisis estadístico.

Se usó ADMIXTOOLS 41 para el análisis estadístico D. Para reducir los sesgos (especialmente el
sesgo de determinación), llamamos a las variantes de India y GAGP (solo humanos) juntas
como se describió anteriormente. La información del SNP de aborígenes australianos y de
Neanderthal, Denisova y otras muestras antiguas se extrajo como se describe en la Nota
complementaria . La información ancestral se extrajo del archivo Fasta que se encuentra en el
sitio web del Proyecto 1000 Genomes.

TreeMix.

TreeMix 14 se utilizó para analizar la divergencia de las poblaciones entre sí, utilizando los
datos descritos anteriormente. Utilizamos valores de migración de 0 a 20. El genoma ancestral
inferido se utilizó para enraizar el árbol. Para permitir LD, usamos el indicador -k. Los bloques
LD se definieron como de 1 Mb de longitud, que en nuestro caso correspondían a unos 5.000
SNP.

Simulaciones

Para las simulaciones, utilizamos ms 42 siguiendo los parámetros publicados 43 . Agregamos


los parámetros Andamanese determinados a partir de nuestras inferencias sobre ascendencia
Andamanese ( Nota Suplementaria ).

Dadi y el modelo de tres poblaciones para la mezcla arcaica.

Primero construimos un modelo nulo sin introgresión de hominins arcaicos en el Andamanese


usando dadi-1.7.0 (ref 44 ) con los parámetros de Gravel et al . 43 . Luego, se implementó un
modelo de tres poblaciones para la mezcla arcaica para estimar la divergencia de esta
población desconocida de los humanos y el momento de la mezcla con Andamanese
simulando la introgresión del genoma homínido al 2% en Andamanese en diferentes
momentos.

Selección.

Este análisis utilizó genomas Andamanese de nuestras secuencias de datos e YRI de Complete
Genomics 31 y las fusionó. Después de eliminar cualquier SNP que faltara información para
cualquier individuo, pasamos gradualmente el Andamanese con SHAPEIT 45 usando 1000
Genomes Project Phase 1 muestras como referencia 40 . Luego, se realizaron las siguientes
pruebas de selección en los datos: (i) D de Tajima (referencia 46 ), (ii) CLR 47 , (iii) Fay y Wu de
H (referencia 48 ), (iv) Fu y Li D ( ref. 49 ), (v) XP-EHH 50 , (vi) ΔiHH 51 , (vi) iHS 51 y (viii)
promedio de EHH52 . Después de calcular todas las pruebas, nos encontramos con el algoritmo
de impulsar 26 utilizando los parámetros tanto de las estrategias de Asia Oriental y HB Europea
(simulado virtud de la neutralidad y la virtud de la selección usando cosi con los modelos
demográficos de Schaffner et al . 53 , tanto para Asia Oriental y la demografía europea y luego
calculando la mejor estrategia para detectar selección). De hecho, los resultados fueron muy
similares para la estrategia HB para cualquier población no africana ( Nota complementaria ).
La información sobre los genes relacionados con el tamaño corporal se obtuvo de GAD 27 .

D estadísticas con ventanas deslizantes y Sstar.

Para identificar las regiones candidatas introgresadas de un hominino desconocido, calculamos


las estadísticas D para cada individuo en regiones de 50 kb con una ventana deslizante de 5 kb
y las regiones retenidas donde Andamanese tenía menos alelos derivados de África que los
europeos o los asiáticos orientales

donde F es la frecuencia de los alelos en la población W, X, Y o Z.

Ejecuté TreeMix en las regiones putativas introgresadas ( Nota complementaria ) y Sstar 24


para refinar la identificación de los haplotipos de hominina introgresados, por lo tanto, solo
elegí las regiones que fueron positivas para ambas estadísticas D mediante ventanas
deslizantes y Sstar ( Nota complementaria ).

Códigos de acceso.

Las secuencias del genoma completo (archivos Andamanese vcf) se han depositado en el
Archivo Europeo de Nucleótidos con acceso PRJEB11455 .
URLs

Herramientas de Picard, http://picard.sourceforge.net/ , servidor FTP de Broad Institute,


ftp://ftp.broadinstitute.org/, archivo de alineaciones ancestrales de 1000 Genome Project,
http://ftp.1000genomes.ebi.ac.uk / vol1 / ftp / phase1 / analysis_results / supporting /
ancestral_alignments / .

Você também pode gostar