Ancient Fennoscandian genomes reveal origin and spread of Siberian ancestry in Europe

Sampling

Written geïnformeerde toestemming werd verkregen van de Saami individu wiens genoom werd geanalyseerd in deze studie, die werd goedgekeurd door het ziekenhuisdistrict van Helsinki en het ethisch comité van Uusimaa (besluit 329/13/03/00/2013) en het ethisch comité van de universiteit van Leipzig (goedkeuringsnummer 398-13-16122013).

Het afnemen en extraheren van antiek DNA vereist een strikte procedure om contaminatie door hedendaags genetisch materiaal te vermijden. De 13 Finse individuen uit de IJzertijd waarover we beschikten, werden bemonsterd in een cleanroomfaciliteit van het Instituut voor Archeologische Wetenschappen in Tübingen die speciaal bestemd is voor DNA-onderzoek in de oudheid. Het voorbereidende werkproces omvatte het documenteren, fotograferen en opslaan van de monsters in individuele plastic buisjes en plastic zakjes met ID-codes. Als gevolg van een vroeg proefonderzoek waren de tandmonsters die we gebruikten gefragmenteerd, en een deel van het tandbeen was verwijderd. Het resterende dentine werd verzameld door het zorgvuldig van het glazuur te scheiden met een tandartsboor en afgekoelde diamantboorkoppen, gedraaid met een snelheid van minder dan 15 omwentelingen per minuut, om mogelijke beschadiging van het oude DNA door hitte te voorkomen.

Voor de monsters van de vindplaatsen Bolshoy en Chalmny Varre gebruikten we restjes tandpoeder die oorspronkelijk waren verwerkt aan het Instituut voor Antropologie van de Universiteit van Mainz voor replicatiedoeleinden, zoals beschreven in ref. 24. In het kort bestonden de voorbereidende stappen van het monster uit UV-bestraling gedurende 30-45 minuten, gevolgd door voorzichtig afvegen van het oppervlak met verdund commercieel bleekmiddel. De tanden werden vervolgens gezandstraald met een aluminiumoxide schuurmiddel (Harnisch & Rieth) en tot fijn poeder vermalen met een mixer-molen (Retsch).

Radiokoolstofdatumkalibratie

We kalibreerden de radiokoolstofdatum van Bolshoy, in refs 24,55 gerapporteerd als 3473 ± 42 jaar BP, met Intcal1356 als de kalibratiecurve, met behulp van OxCal 4.357.

DNA-extractie en bibliotheekvoorbereiding

DNA van de zes Bolshoy- en de twee Chalmny Varre-monsters werd geëxtraheerd in de antieke DNA-faciliteiten van het Max Planck Instituut voor de Wetenschap van de Menselijke Geschiedenis (MPI-SHH) in Jena, Duitsland. De extractie van de Levänluhta-monsters vond op soortgelijke wijze plaats in de cleanroomfaciliteiten van het Instituut voor Archeologische Wetenschappen in Tübingen. Voor elk specimen werd ~ 50 mg dentinepoeder gebruikt voor een extractieprocedure die speciaal ontworpen is voor het extraheren van antiek DNA58. Extractiebuffer met 0,45 M EDTA, pH 8.0 (Life Technologies) en 0,25 mg/ml Proteinase K (Sigma-Aldrich) werd aan het botpoeder toegevoegd en bij 37 °C gedurende één nacht geïncubeerd onder rotatie. Het supernatant werd van de pellet van het botpoeder gescheiden door centrifugeren (14.000 rpm). Een bindingsbuffer bestaande uit 5 M GuHCL (Sigma Aldrich) en 40% isopropanol (Merck), samen met 400 μl 1 M natriumacetaat (pH 5,5) werd aan het supernatans toegevoegd, en de oplossing werd gezuiverd door het te centrifugeren door een zuiveringskolom die was bevestigd aan een High Pure Extender Assembly trechter (8 min. in 1500 rpm, met langzame versnelling). De kolom werd vervolgens 1-2 keer in een verzamelbuis (1 min. 14.000 rpm) gesponnen om de opbrengst te maximaliseren. Dit werd gevolgd door twee opeenvolgende wasstappen van 450 μl wasbuffer (High Pure Viral Nucleic Acid Large Volume Kit) en twee droog centrifugeren stappen van 1 min centrifugeren bij 14.000 rpm. Het uiteindelijke totale volume van 100 μl eluaat werd bereikt door twee afzonderlijke elutierondes van 50 μl TET (10 mM Tris-HCL, 1 mM EDTA pH 8,0, 0,1% Tween20), telkens gedurende 1 min gecentrifugeerd bij 14.000 rpm in een nieuwe Eppendorf-buis van 1,5 ml. Negatieve controles (buffer in plaats van monster) werden parallel verwerkt in een verhouding van 1 controle per 7 monsters.

Van de 100 ul extract, werd 20 ul gebruikt om het monster DNA te immortaliseren als een dubbelstrengs bibliotheek. De procedure omvatte een blunt-end reparatie, adapter ligatie en adapter fill-in stappen, zoals beschreven door Meyer en Kircher59. Tijdens de blunt-end reparatie stap, een mengsel van 0,4 U / ul T4 PNK (polynucleotide kinase) en 0,024 U / ul T4 DNA polymerase, 1 × NEB buffer 2 (NEB), 100 pM dNTP mix (Thermo Scientific), 1 mM ATP (NEB) en 0.8 mg/ml BSA (NEB) werd toegevoegd aan het template-DNA, gevolgd door incubatie in een thermocycler (15 min. 15 °C, 15 min. 25 °C) en zuivering met een MinElute-kit (QIAGEN). Het product werd geëlueerd in 18 pl TET-buffer. De adapter ligatie stap omvatte een mengsel van 1 × Quick Ligase Buffer (NEB), 250 nM Illumina Adapters (Sigma-Aldrich) en 0,125 U / ul Quick Ligase (NEB), toegevoegd aan de 18 pi eluaat, gevolgd door een 20 min incubatie, en de tweede zuivering stap met MinElute kolommen, dit keer in 20 pi eluaat. Voor de fill-in stap werd een mengsel van 0,4 U/μl Bst-polymerase en 125 μM dNTP-mix toegevoegd en het mengsel vervolgens geïncubeerd in een thermocycler (30 min 37 °C, 10 min 80 °C). Bibliotheken zonder Uracil-DNA-glycosylase (UDG) behandeling werden geproduceerd voor alle 13 extracten van Levänluhta. Daarnaast zijn er UDG-halfbehandelde bibliotheken geproduceerd voor zeven van de oorspronkelijke 13 extracten van Levänluhta, en voor alle Bolshoy- en Chalmny Varre-extracten. Om de UDG-half behandeling in te voeren, werd een eerste fase opgenomen in de bibliotheek voorbereiding, waarin 250 U USER enzym (NEB) werd toegevoegd aan de 20 pi extract, gevolgd door een incubatie bij 37 ° C gedurende 30 min, en vervolgens 12 ° C gedurende 1 min. Dit werd weer gevolgd door de toevoeging van 200 UGI (Uracil Glycosylase inhibitor, door NEB) en nog een identieke incubatie aan de enzymatische excisie van deaminated sites te stoppen, zoals beschreven in60. Voor elke bibliotheek werd een uniek paar indexen van acht bp lang opgenomen met behulp van een Pfu Turbo Cx Hotstart DNA-polymerase en een thermocyclageprogramma met het volgende temperatuurprofiel: initiële denaturatie (98 °C gedurende 30 sec), cyclus van denaturatie/blankmaking/verlenging (98 °C gedurende 10 sec/ 60 °C gedurende 20 sec/ 72 °C gedurende 20 sec) en uiteindelijke verlenging bij 72 °C gedurende 10 min61. Botpoeder van een holenbeer werd parallel verwerkt en diende als positieve controle. Negatieve controles voor zowel de extractie en bibliotheek voorbereiding fasen werden gehouden naast de monsters gedurende de gehele workflow.

Experiment efficiëntie werd verzekerd door het kwantificeren van de concentratie van de bibliotheken op qPCR (Roche) met behulp van aliquots van bibliotheken voor en na indexering. Het moleculaire kopiegetal in pre-geïndexeerde bibliotheken varieerde van ~ 10E8 tot ~ 10E9 exemplaren / ul, met vermelding van een succesvolle bibliotheek voorbereiding, terwijl de geïndexeerde bibliotheken varieerde van ~ 10E10 tot ~ 10E12 exemplaren / ul, met vermelding van een aanvaardbare indexering efficiëntie. De negatieve controles toonden 4-5 orden van grootte lagere concentratie dan de monsters, wat duidt op lage verontreinigingsniveaus van het laboratorium verwerking stadia.

De bibliotheken werden geamplificeerd met PCR, voor het aantal cycli overeenkomt met de concentraties van de geïndexeerde bibliotheken, met behulp van AccuPrime Pfx polymerase (5 pi van de bibliotheek template, 2 U AccuPrime Pfx DNA polymerase van Invitrogen, 1 U van kant-en-klare 10 × PCR mastermix, en 0.3 μM primers IS5 en IS6, voor elke reactie van 100 μl) met een thermisch profiel van 2 min denaturatie bij 95 °C, 3-9 cycli bestaande uit 15 sec denaturatie bij 95 °C, 30 sec annealing bij 60 °C, 2 min elongatie bij 68 °C en 5 min elongatie bij 68 °C. De geamplificeerde bibliotheken werden gezuiverd met MinElute-spinkolommen volgens het standaardprotocol van de fabrikant (Qiagen), en gekwantificeerd voor sequencing met een Agilent 2100 Bioanalyzer DNA 1000-chip.

Voor de moderne Saami-individuen werd totaal DNA met fenol-chloroform geëxtraheerd en fysiek geschoren met COVARIS-fragmentatie. Een aangepaste Illumina bibliotheek voorbereiding werd uitgevoerd met behulp van blunt-end reparatie, gevolgd door A-tailing van de 3′-end en ligatie van gevorkte adapters. Indexering PCR werd gevolgd door excisie van fragmenten variërend van 500 tot 600 bp van een 2% agarose gel.

Vang & sequencing

We gebruikten de in-solution capture procedure uit ref. 62 om onze bibliotheken te verrijken voor DNA-fragmenten die overlappen met 1.237.207 variabele posities in het menselijk genoom4. De als aas gebruikte sequenties, die aan magnetische korrels waren bevestigd, werden met het DNA-monstersjabloon in oplossing gemengd en gedurende een 24-uurs incubatie bij 60 °C in een rotatieoven met het doel-DNA gehybridiseerd. 4-6 monsters werden gepoold in gelijke massaverhoudingen tot een totaal van 2000 ng DNA. De verzamelde bibliotheken werden gesequenced (75 bp single-end, plus extra paired-end voor de drie niet-UDG bibliotheken van de Levänluhta individuen) op een Illumina HiSeq 4000 platform in het Max Planck Instituut voor de Wetenschap van de Menselijke Geschiedenis in Jena. Van de 13 oorspronkelijk verwerkte ijzertijdmonsters uit Finland bleken er zeven van voldoende kwaliteit te zijn om in downstream-analyses te worden gebruikt. Het moderne Saami-genoom werd gesequeneerd in een Genome Analyser II (8 lanes, 125 bp paired-end) in het Max Planck Instituut voor Evolutionaire Antropologie in Leipzig.

Verwerking van gesequencede reads

We gebruikten EAGER63 (versie 1.92.50) om de sequenced reads te verwerken, gebruikmakend van standaard parameters (zie hieronder) voor mens-afkomstige, UDG-half behandelde, single-end sequencing data, bij het verwerken van de UDG-half bibliotheken voor alle individuen. Specifiek, AdapterRemoval werd gebruikt om de sequencing adapters van onze leest trimmen, met een minimale overlap van 1 bp, en met behulp van een minimale base kwaliteit van 20 en minimale sequentie lengte van 30 bp. BWA aln (versie 0.7.12-r1039, https://sourceforge.net/projects/bio-bwa/files)64 werd gebruikt om de gelezen sequenties te mappen aan de hs37d5 menselijke referentiesequentie, met een seed lengte (-l) van 32, max aantal verschillen (-n) van 0.01 terwijl er geen kwaliteitsfiltering werd toegepast. Duplicaatverwijdering werd uitgevoerd met DeDup v0.12.1. Eind base deamination schade berekening werd gedaan met behulp van mapDamage, het specificeren van een lengte (-l) van 100 bp (Supplementary Table 1).

Voor downstream-analyses, gebruikten we bamutils (versie 1.0.13, https://github.com/statgen/bamUtil.git) TrimBam om twee basen trim aan het begin en einde van alle leest. Deze procedure elimineert de posities die worden beïnvloed door deaminatie, waardoor genotyperingsfouten die zouden kunnen ontstaan als gevolg van oude DNA-beschadiging worden verwijderd.

Voor drie Levänluhta individuen die de drempeldekking van 1% in de voorlopige screening overschreden, gebruikten we de niet-UDG behandelde bibliotheken om de echtheid van de oude gegevens te bevestigen. Voor deze onbehandelde bibliotheken werden twee sequencerondes uitgevoerd, die werden verwerkt met EAGER met de bovenstaande parameters, maar met specificatie van een niet-UDG-behandelingsmodus en instelling van het juiste sequencingtype tussen de bibliotheken. De samengevoegde gelezen werden geëxtraheerd uit de resulterende bam-bestanden, en samengevoegd met het bam-bestand met gelezen van de single end sequentie run met behulp van samtools merge (versie 1.3)65.

Het moderne Saami genoom werd gegenereerd met behulp van Ibis voor base calling en een in-house adapter trimming script. De resulterende reads werden vervolgens uitgelijnd aan het menselijke referentiegenoom hs37d5 met behulp van bwa 0.5.9-r16 (parameters -e 20 -o 2 -n 0.01).

Genotypering

We gebruikten een aangepast programma (pileupCaller) om de 15 oude individuen te genotyperen. Een pileup bestand werd gegenereerd met samtools mpileup met parameters -q 30 -Q 30 -B die alleen sites bevat die overlappen met ons capture panel. Uit dit bestand werd voor elk individu en elke SNP op het 1240K panel een willekeurige leeswaarde voor de SNP getrokken, en werd een pseudohaploïde oproep gedaan, d.w.z. het oude individu werd verondersteld homozygoot te zijn voor het allel op de willekeurig getrokken leeswaarde voor de SNP in kwestie. PileupCaller is beschikbaar op https://github.com/stschiff/sequenceTools.git.

Voor de drie Levänluhta-bibliotheken die geen UDG-behandeling ondergingen, hebben we alleen transversies gegenotypeerd, waardoor artefacten van postmortale C- > T-schade uit verdere analyses zijn geëlimineerd.

Het shotgun genoom van het moderne Saami individu werd gegenotypeerd met behulp van GATK (versie 1.3-25-g32cdef9) Unified Genotyper na indel realignment. De variant calls werden gefilterd voor varianten met een kwaliteitsscore boven 30, en een aangepast script werd gebruikt om de varianten om te zetten in EigenStrat formaat.

De gegevens werden samengevoegd met een grote dataset bestaande uit 3871 oude en moderne individuen die gegenotypeerd waren op de Human Origins en/of 1240K SNP arrays, met behulp van mergeit.

Seksebepaling

Om het genetische geslacht van elk individu uit de oudheid te bepalen berekenden we de dekking op de autosomen en op elk geslachtschromosoom. We gebruikten een aangepaste script (https://github.com/TCLamnidis/Sex.DetERRmine) voor de berekening van elke relatieve dekking en de bijbehorende fout balken (Supplementary Figuur 1, aanvullende noot 3 voor meer informatie over de fout berekening). Vrouwtjes worden verwacht dat een x-rate van 1 en een y-rate van 0, terwijl mannen worden verwacht dat zowel x-en y-rate van 0,5 (ref. 49).

Authenticatie

Wij hebben eerst bevestigd dat de deaminatie patroon op de eindbasen van DNA leest kenmerkend waren voor oude DNA (1.04-4,5% voor niet-UDG-bibliotheken, en 4,7-9,5% voor niet-UDG-bibliotheken, zie aanvullende tabel 1), met behulp van mapDamage (versie 2.0.6)66. Wij voerden een aantal verschillende tests uit om de authenticiteit van onze antieke gegevens te verzekeren. Voor mannelijke individuen onderzochten we polymorfismen op het X-chromosoom27 met behulp van het ANGSD softwarepakket (versie 0.910)67. Dit bracht robuuste contaminatieschattingen aan het licht voor 2 mannelijke Bolshoy individuen, en 1 mannelijk Chalmny-Varre individu. Deze waren allemaal minder dan 1,6% contaminatie (Tabel 1). Voor de vrouwelijke individuen van deze twee sites merken we op dat ze in de PCA-ruimte dicht bij de mannetjes geprojecteerd zijn (Fig. 2a, supplementaire Figuur 3), wat wijst op beperkte effecten van mogelijke contaminatie. Bovendien hebben we voor alle individuen een PMD-gefilterde dataset gegenereerd met pmdtools (versie 0.60)30. PMD-filtering werd uitgevoerd met behulp van een referentiegenoom gemaskeerd voor alle posities op het 1240K capture panel, om systematische allel biases op de geanalyseerde SNP posities te vermijden. We stelden een pmd-drempel van 3 in, die volgens de oorspronkelijke publicatie30 potentiële moderne contaminanten effectief elimineert op basis van de afwezigheid van basismodificaties die consistent zijn met deaminatie.

Om een meer kwantitatieve schatting van mogelijke contaminatie bij vrouwen te geven, gebruikten we het ContamMix programma (versie 1.0-10)29 voor het schatten van mitochondriale contaminatie. Wij extraheerden de gelezen mapping aan de mitochondriale referentie voor elk van de oude individuen met behulp van samtools (versie 1.3)65. Vervolgens genereerden we een mitochondriale consensussequentie voor elk van de oude individuen met Geneious (versie 10.0.9, http://www.geneious.com,68), en riepen N op voor alle sites met een dekking lager dan 5. Tenslotte werden alle mitochondriale lezingen uitgelijnd aan hun respectievelijke consensus sequentie, met behulp van bwa aln (versie 0.7.12-r1039)64 met een maximum aantal verschillen in de zaad (-k) ingesteld op 5 en het maximum aantal verschillen (-n) op 10, en bwa samse (versie 0.7.12-r1039)64. Een meervoudige uitlijning van de consensus sequentie en een referentie set van 311 mitochondriale genomen69 werd gegenereerd, met behulp van mafft (versie v7.305b)70,71,72 met de –auto parameter. De gelezen uitlijning, evenals de meervoudige uitlijning van de consensus en de 311 referentie mitochondriale genomen werden vervolgens verstrekt aan ContamMix. Wij rapporteren hier de a posteriori wijze van contaminatie, samen met de boven- en ondergrens van het 95% posterior interval (Tabel 1).

Voor extra authenticatie hebben wij ADMIXTURE28 (versie 1.3.0) onder supervisie uitgevoerd voor alle monsters, met gebruikmaking van de zes huidige populaties (Atayal, Frans, Kalash, Karitiana, Mbuti en Papoea) als gedefinieerde genetische clusters, om eventuele grote verschillen in genetische clustering tussen individuen van dezelfde plaats te lokaliseren (Supplementaire figuur 2). We testten het vermogen van deze methode om contaminatie op te sporen en stelden vast dat ze contaminatie kan opsporen die ver verwant is met de voorouders aanwezig binnen de testindividuen al aan percentages van 5-8%, maar niet het vermogen heeft om contaminatie op te sporen die nauw verwant is met de testindividuen (zie Supplementaire Nota 2). We hebben geen significante verschillen waargenomen (binnen onze resolutie) in de patronen van voorouders tussen de oude individuen van dezelfde vindplaats, met uitzondering van Levänluhta, waar het individuele monster JK2065 lijkt voort te komen uit een ander voorgeslacht. We hebben het daarom een apart populatielabel gegeven, Levänluhta_B in deze studie.

Ten slotte hebben we met behulp van smartpca PMD-gefilterde en niet-gefilterde datasets geprojecteerd op dezelfde set hoofdcomponenten die zijn geconstrueerd voor moderne Europese populaties, om er zeker van te zijn dat de oude individuen op ruwweg gelijkwaardige posities geprojecteerd blijven, ongeacht de PMD-filtering. Dit was mogelijk voor alle stalen met UDG-half behandeling, behalve voor de individuen van Levänluhta, die te weinig schade vertoonden om de PMD-filtering te kunnen toepassen. Wat deze site betreft, hebben we ons daarom gebaseerd op de niet-UDG-bibliotheken (met alleen transversies) die gegenereerd werden voor de drie individuen die in de hoofdanalyse gebruikt werden. Wij vonden dat binnen de verwachte ruis als gevolg van een laag aantal SNP’s, alle monsters consistentie vertonen tussen de gefilterde en niet-gefilterde datasets, wat wijst op een geringe hoeveelheid contaminatie in alle monsters (supplementaire figuur 3a, b). Vier extra individuen uit Levänluhta werden uitgesloten van de hoofdanalyse en van deze authenticiteitstest wegens lage dekking (< 15.000 gedekte SNPs) en gebrek aan niet-UDG-bibliotheken.

F-statistieken

Alle programma’s die in deze studie voor de berekening van F-statistieken zijn gebruikt, zijn te vinden als onderdeel van het pakket Admixtools (https://github.com/DReichLab/AdmixTools)2,42.

We gebruikten qp3Pop (versie 412) voor alle F3 berekeningen.

F4 statistieken werden berekend met qpDstat (versie 711), en qpAdm (versie 632)2 werd gebruikt voor het schatten van mixture proporties met behulp van het volgende: Bronnen (Linker Populaties): Nganasan; WHG; EHG; Yamnaya_Samara; LBK_EN. Outgroups (Rechter Populaties): OG1: Mbuti; CHG; Israel_Natufian; Onge; Villabruna; Ami; Mixe. OG2: Mbuti; CHG; Onge; Villabruna; Ami; Mixe. OG3: Mixe; CHG; Israel_Natufian; Villabruna; Onge; Ami. OG4: Mbuti; Israel_Natufian; Onge; Villabruna; Ami; Mixe. OG5: Mbuti; Samara_HG; CHG; Israel_Natufian; Villabruna; Ami.

Om er zeker van te zijn dat de outgroup sets voldoende power hadden om de voorouders aanwezig in de bronnen te onderscheiden, hebben we qpWave (versie 410) uitgevoerd met alleen de bronnen als linker populaties en elke outgroup set als rechten. Al deze qpWave runs waren alleen consistent met maximale rang, wat betekent dat alle outgroup sets voldoende vermogen hadden om onderscheid te maken tussen de vijf verschillende bronnen. Alle qpWave en qpAdm modellen werden uitgevoerd met de optie allsnps: JA. Wanneer de door qpAdm geleverde vijf-weg mengsels p-waarden boven 0.05 hadden, maar onhaalbare mengsels proporties bevatten en aan een van de bronnen een negatieve mengsels proportie was toegekend, hebben we het model opnieuw gedraaid met die bron uitgesloten. Als outgroup set OG1 voor elke Test-populatie geen werkend volledig model opleverde (p < 0.05), probeerden we alternatieve outgroup sets waarbij één juiste populatie werd verwijderd. Dit resulteerde in outgroup sets OG2-4. In het geval van Levänluhta leverden meerdere outgroup sets werkende modellen op, die zijn opgenomen in supplementaire data 4. Het vermengingsmodel dat het minimum aantal bronnen nodig heeft en toch haalbare vermengingsproporties oplevert, wordt steeds getoond. In het geval van PWC uit Zweden, waar geen van de outgroup sets OG1-4 een werkend model opleverde, werd een herziene set van juiste populaties gebruikt (OG5) die Samara_HG omvat om meer vermogen te bieden om jager-verzamelaar voorouders te onderscheiden. We verkozen modellen met OG1-4 boven OG5 in het algemeen, omdat OG5 meer oude genomen bevat met potentiële biases in de juiste populaties, wat vaker leidt tot falende modellen voor moderne Testpopulaties. De uitgesloten bronnen in de minimale modellen werden gespecificeerd als N/A (Supplementary Data 4). Als ofwel Yamnaya ofwel EHG kon worden weggelaten (zoals het geval is voor Levänluhta), tonen wij het model dat meer in overeenstemming is met eerdere publicaties3,7,8,45 in Fig. 4, maar tonen beide modellen in Supplementary Data 4.

Principal Component Analysis

We hebben smartpca (versie #16000)73 (https://github.com/DReichLab/EIG) gebruikt om een principale-componentenanalyse (PCA) uit te voeren, met gebruikmaking van lsqproject: YES en shrinkmode:

Voor de Euraziatische PCA (Fig. 2a) werden de volgende populaties gebruikt om hoofdcomponenten te construeren: Abchazisch, Adygei, Albanees, Altaïsch, Ami, Armeens, Atayal, Avar.SG, Azeri_WGA, Balkar, Balochi, Baskisch, BedouinA, BedouinB, Wit-Russisch, Borneo, Brahui, Bulgaars, Buryat.SG, Cambodjaans, Canarische_eilanders, Tsjetsjenië, Tsjoevasj, Kroatisch, Cypriotisch, Tsjechisch, Dai, Daur, Dolgan, Druzisch, Engels, Ests, Zelfs, Fins, Frans, Georgisch, Grieks, Han, Hazara, Hezhen, Hongaars, IJslands, Iraans, Italiaans_Noord, Italiaans_Zuid, Japans, Joods_Ashkenazisch, Joods_Georgisch, Jew_Iranian, Jew_Iraqi, Jew_Libyan, Jew_Moroccan, Jew_Tunisian, Jew_Turkish, Jew_Yemenite, Jordanian, Kalash, Kalmyk, Kinh, Korean, Kumyk, Kurd_WGA, Kirgizisch, Lahu, Libanees, Lezgin, Litouws, Makrani, Mala, Maltees, Mansi, Miao, Mongola, Mordovisch, Naxi, Nganasan, Nogai, Noord_Ossetisch.DG, Noors, Orcadisch, Oroqen, Palestijns, Pathaans, Russisch, Saami.DG, Saami_WGA, Sardijns, Saoedisch, Schots, Selkup, Semende, Zij, Sherpa.DG, Siciliaans, Spaans, Spaans_Noord, Syrisch, Tadzjiek, Thai, Tibetaans.DG, Tu, Tubalar, Tujia, Turks, Turkmeens, Tuviniaans, Oekraïens, Ulchi, Uygur, Oezbeeks, Xibo, Yakut, Yi, Yukagir.

Voor de West-Euraziatische PCA (Supplementary Figure 3a, b) werden de volgende populaties gebruikt om hoofdcomponenten te construeren: Abchazisch, Adygei, Albanees, Armeens, Balkar, Baskisch, BedoeïenA, BedoeïenB, Wit-Russisch, Bulgaars, Canarische_Islander, Tsjetsjeens, Tsjoevasj, Kroatisch, Cypriotisch, Tsjechisch, Druzisch, Engels, Ests, Fins, Frans, Georgisch, Grieks, Hongaars, IJslands, Iraans, Italiaans_Noord, Italiaans_Zuid, Jood_Ashkenazisch, Jood_Georgisch, Jew_Iranian, Jew_Iraqi, Jew_Libyan, Jew_Moroccan, Jew_Tunisian, Jew_Turkish, Jew_Yemenite, Jordanian, Kumyk, Lebanese, Lezgin, Lithuanian, Maltese, Mordovian, North_Ossetian, Norwegian, Orcadian, Palestinian, Polish, Russian, Sardinian, Saudi, Scottish, Sicilian, Spanish, Spanish_North, Syrian, Turkish, Ukrainian.

ADMIXTURE analyse

ADMIXTURE28 werd uitgevoerd met versie 1.3.0, na uitsluiting van varianten met een minor allel frequentie van 0.01 en na LD pruning met behulp van plink (versie 1.90b3.29)74 met een venstergrootte van 200, een stapgrootte van 5 en een R2 drempelwaarde van 0.5 (https://www.genetics.ucla.edu/software/admixture/download.html). Voor elke K-waarde werden vijf replicaten uitgevoerd, met K-waarden tussen 2 en 15. De gebruikte populaties waren: Ami, Ami.DG, Armeens, Atayal, Atayal.DG, Balochi, Baskisch, BedouinB, Wit-Russisch, Brahmin_Tiwari, Brahui, Tsjoevasj, Kroatisch, Cypriotisch, Tsjechisch, Engels, Ests, Zelfs, Fins, Fins.DG, Frans, Grieks, GujaratiB, Hadza, Han, Hongaars, IJslands, Kalash, Karitiana, Litouws, Makrani, Mala, Mansi, Mansi.DG, Mari.SG, Mbuti, Mbuti.DG, Mixe, Mordovisch, Nganasan, Noors, Onge, Orcadisch, Papoea, Pima, Russisch, Saami.DG, ModernSaami, Sardinisch, Schots, Selkup, Spaans, Oekraïens, Ulchi, Yoruba, ALPC_Hungary_MN, Baalberge_MN, Baltic_BA, Baltic_CCC, Baltic_CWC, Baltic_LN, BolshoyOleniOstrov, Bu_kk_Culture_Hungary_MN, ChalmnyVarre, CHG, EHG, Esperstedt_MN, Ganj_Dareh_Iran_Neolithicum, Hongarije_MN, Hongarije_Neolithicum, Iran_Chalcolithicum, JK2065, Koros_Hongarije_EN, Kunda, Letland_HG3, Letland_MN1, LBK_EN, LBK_Hongarije_EN, Levanluhta, Narva, PWC_Zweden_NHG.SG, Scandinavië_LNBA, SHG, Zweden_HG.SG, TRB, Oekraïne_HG1, Oekraïne_N1, WHG, Yamnaya_Samara.

Wij vinden dat K = 11 resulteert in de laagste Cross-Validation fout, zoals te zien in aanvullende figuur 4b.

Y-chromosomale haplotypering

We wezen oude mannen toe aan Y haplogroepen met behulp van het yHaplo programma (https://github.com/23andMe/yhaplo)75. In het kort, dit programma biedt een geautomatiseerde zoektocht door de Y haplogroep boom (zoals verstrekt binnen yHaplo, zoals geraadpleegd van ISOGG op 04 jan 2016) van de wortel naar de stroomafwaartse tak op basis van de aanwezigheid van afgeleide allelen en wijst de meest stroomafwaartse haplogroep met afgeleide allelen toe. Voor ongeveer 15.000 Y-chromosomale SNPs die zowel in ons capture panel als in twee gepubliceerde datasets76,77 aanwezig zijn, bemonsterden we willekeurig een enkele base en gebruikten die als haploïd genotype. We gebruikten een aangepast script om EigenStrat-genotypes naar het yHaplo-formaat om te zetten. Wij rapporteren de haplogroep die door het programma het verst stroomafwaarts werd toegewezen (Tabel 1). We controleerden ook handmatig de afgeleide status en afwezigheid van mutaties die de aangewezen haplogroep definiëren, omdat ontbrekende informatie zou kunnen leiden tot een voortijdige stop in de geautomatiseerde zoektocht.

Mitochondriale haplotypering

We importeerden de getrimde mitochondriale leest voor elk individu met mapping kwaliteit >30 in Geneious (versie 10.0.9, https://www.geneious.com)68 en hermonteerden deze gegevens tot het referentiegenoom RSRS78, met behulp van de Geneious mapper, met medium gevoeligheid en 5 iteraties. We gebruikten de ingebouwde geautomatiseerde variant caller in Geneious om mitochondriale polymorfismen te vinden met een minimale dekking van 3 en een minimale Variant Frequentie van 0,67. De resulterende varianten werden geëxporteerd naar Excel en handmatig vergeleken met de SNPs gerapporteerd in de online mtDNA fylogenie (mtDNA tree Build 17, 18 Feb 2016, http://www.phylotree.org/). Nucleotideposities 309.1 C(C), 315.1C, AC indels op 515-522, 16182C, 16183C, 16193.1C(C) en 16519 werden gemaskeerd en niet meegenomen in onze haplotype calls.

Phenotypische SNPs

We gebruikten samtools mpileup (versie 1.3)65, filteren voor map- (-Q) en base- (-q) kwaliteit van 30, het deactiveren van per-Base Alignment Quality (-B), op de getrimde bam bestanden, om een pileup te genereren van gelezen mapping naar een set van 43 fenotypische SNPs4,40,41,79 die deel uitmaken van ons genome capture panel. Een aangepaste python script werd gebruikt om de pileup ontleden in een tabel met het aantal leest ter ondersteuning van elk allel (Supplementary Data 2).

Code beschikbaarheid

Alle software voor het eerst beschreven in deze studie is vrij beschikbaar van online repositories. Sex.DetERRmine: https://github.com/TCLamnidis/Sex.DetERRmine

ContaminateGenotypes: https://github.com/TCLamnidis/ContaminateGenotypes

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *