陕西-山西地区新石器时代晚期人群的古基因组研究

**要点** - 我们的研究报告了陕西-山西地区3个新石器时代晚期遗址的8个古基因组。 大多数个体携带以仰韶文化相关的主要祖源成分,以及次要的东北亚相关祖源成分。 我们发现鲁山毛遗址的LSM_1个体是一个遗传异常值,表现出与红山文化人群较强的遗传亲缘关系。 我们的发现加深了对黄河中游地区新石器时代人群互动的理解。 **摘要**新石器时代晚期的黄河中游地区是中原与北方草原文化交流的前沿。这一时期涌现出的重要遗址,如陶寺、石峁和鲁山毛遗址,在早期中华文明的形成过程中发挥了重要作用。本研究报告了来自这三个遗址的8个个体的古基因组数据。群体遗传学分析揭示,这些个体的祖源主要与中原地区仰韶文化人群

陕西-山西地区新石器时代晚期人群的古基因组研究
  • 我们的研究报告了陕西-山西地区3个新石器时代晚期遗址的8个古基因组。
    大多数个体携带以仰韶文化相关的主要祖源成分,以及次要的东北亚相关祖源成分。
    我们发现鲁山毛遗址的LSM_1个体是一个遗传异常值,表现出与红山文化人群较强的遗传亲缘关系。
    我们的发现加深了对黄河中游地区新石器时代人群互动的理解。

摘要新石器时代晚期的黄河中游地区是中原与北方草原文化交流的前沿。这一时期涌现出的重要遗址,如陶寺、石峁和鲁山毛遗址,在早期中华文明的形成过程中发挥了重要作用。本研究报告了来自这三个遗址的8个个体的古基因组数据。群体遗传学分析揭示,这些个体的祖源主要与中原地区仰韶文化人群相关,并具有部分东北亚祖源成分。我们还在鲁山毛遗址发现了一个具有遗传差异的个体,该个体携带较多的东北亚祖源,并具有与红山文化人群相似的遗传背景。这些发现为新石器时代晚期中国北方地区的遗传互动和人口迁徙提供了更详细的图景,并提示了可能存在的跨区域人口互动。

关键词
群体遗传学
古基因组
新石器时代晚期
黄河中游地区
人口互动

1. 引言
新石器时代晚期是中国社会快速变迁的时期[1]。在这一时期,黄河中游地区特别是山西和陕西出现了一系列占地数百万平方米的大型核心聚落,如石峁遗址(约4300-3800 BP)[2]、陶寺遗址(约4300-3900 BP)[3]和鲁山毛遗址(约4300-4100 BP)[4],显示了龙山时期早期以来的全面复兴趋势[5]。这三个遗址之间存在密切的考古学联系。鲁山毛遗址出土的一些陶器和玉器与陶寺遗址早期的相似[6],两个遗址都有大型夯土建筑[7,8]。在石峁和鲁山毛遗址中,都发现了镶嵌在墙壁中的玉器4,9,这可能是两个遗址共有的祭祀习俗。此外,鲁山毛遗址的M1是一个居室葬[4,10],即在人们继续居住的房屋内埋葬死者的习俗。这一习俗在辽西地区的榆民[11]和兴隆洼遗址[12]也有发现[10],表明两个地区之间可能存在文化联系。

先前的古DNA研究揭示,黄河流域边缘地区的人群,如石峁遗址附近的庙子沟遗址和神圪垯梁遗址的人群,主要表现出混合的遗传背景,以仰韶文化相关的黄河祖源(YR_MN)为主要来源,以阿穆尔河流域相关的东北亚祖源(AR_EN)为次要来源[13]。这反映了中原核心区域与更广泛的东北亚地区之间的基因流动互动。龙山时期陕北和晋南人群之间的遗传亲缘关系也得到线粒体基因组的证实[14],表明晋陕地区内部存在密切的遗传联系。然而,对这一地区新石器时代晚期人群祖源构成的详细分析仍然缺乏。

为了了解晋陕地区新石器时代晚期人群的遗传构成,我们选择了8个古代个体进行研究。鲁山毛遗址的样本来自M1的主人和他的三个人牲,编号为LSM_1、2、3和4。石峁遗址的样本来自与一套青铜器和玉环一起出土的桡骨9,以及两个与玉器一起埋在石墙中的牙齿个体,编号为SM_1、2和3。陶寺遗址的个体来自中期王陵IIM22,其随葬品丰富,包括玉器和漆木器[3],表明墓主人具有王室身份。该个体编号为TS。

2. 方法

2.1. 古DNA提取、文库构建和测序
样本首先使用喷砂机(Renfert, 德国)进行表面抛光,然后用8%次氯酸钠溶液和无水乙醇彻底清除表面污染物。样本随后进行30分钟紫外线照射,再使用牙科钻(Saeshin, 韩国)获取粉末。我们按照此前描述的古DNA提取[15]和半-UDG(尿嘧啶-DNA-糖基化酶)处理[16]的双链古DNA文库构建[17]方案进行操作以供后续测序。我们进行了针对124万个SNPs("1240 K")[18]和线粒体DNA的溶液捕获富集,随后在Illumina NovaSeq 6000平台上进行测序。

2.2. 原始数据预处理和古DNA鉴定
使用EAGER v2.5.0[19]对原始数据进行预处理并输出古DNA真实性评估的统计数据。使用AdapterRemoval v2.3.2[20]进行接头切除和双端测序读段合并。将合并的读段使用BWA v0.7.17[21]比对到含有诱饵序列的人类参考基因组(hs37d5)(参数:-n 0.01, -l 1024)。我们使用DeDup v0.12.8[19]去除重复读段。使用DamageProfiler v0.4.9[22]检查古DNA的死后损伤信号,随后使用bamUtils v1.0.15[23]通过修剪读段两端各2bp来屏蔽这些信号。我们使用带有"--randomHaploid"选项的pileupCaller为每个样本生成拟单倍型数据。然后使用ContamMix v1.0-11[24]和Schmutzi v1.5.7[25]估算线粒体污染,分别使用hapCon v0.64[26]和ANGSD v0.940[27]估算核DNA污染(基于X染色体)。

2.3. 性别鉴定、单倍群判定和遗传亲缘关系分析
使用EAGER中嵌入的Sex.DetERRmine[28]模块,基于X或Y染色体与常染色体的读段比例来确定样本的遗传性别。使用HaploGrep v3.2.1[29]基于Schmutzi的log2fasta程序生成的线粒体一致性序列进行线粒体单倍群判定。我们使用Yleaf v3.2.1[30]和HaploGrouper[31]为男性样本确定Y染色体单倍群(基于ISOGG 2019)。对于遗传亲缘关系,我们使用基于PMR的READv2[32]和基于IBD的KIN[33]来检测样本间潜在的亲缘关系。

2.4. 群体分析和纯合片段(ROH)分析
我们将新生成的拟单倍型数据与Allen古DNA资源库(AADR) v54.1.p1[34,35]合并,使用EIGENSOFT v8.0.0中的mergeit程序。基于"Human Origins"位点集(597,573个位点)[36]的数据集用于主成分分析(PCA),该分析使用EIGENSOFT中的smartPCA v18140程序进行。基于"1240 K"位点集(1,233,013个位点)[18]的数据集用于ADMIXTURE分析、基于f-统计的分析和ROH分析。在使用ADMIXTURE v1.3.0进行ADMIXTURE分析之前,我们首先使用Plink v1.9的'--indep-pairwise 200 25 0.4'选项进行连锁不平衡修剪。我们对K值从2到8进行了10次重复的ADMIXTURE分析,每次运行时使用'-s'参数指定不同的随机种子。我们还使用'--cv'标志启用交叉验证程序。使用BITE v2.1.0[37]和AncestryPainter v2.0.1[38]可视化ADMIXTURE分析结果。我们使用ADMIXTOOLS 2(v2.0.0)[39]计算f3和f4统计量。使用ADMIXTOOLS v7.0.2[36]中实现的qpWave/qpAdm v1520程序进行同质性检验和混合模型分析。最后,我们使用hapROH[40]检测样本可能携带的ROH片段。

3. 结果

3.1. 数据概述
本研究对来自山西-陕西地区新石器时代晚期的鲁山毛、石峁和陶寺遗址的8个新基因组数据进行分析,以进一步研究该地区人群的内部结构及其与周边群体的潜在基因交流。所有样本在5'/3'末端都显示出C → T/G → A错配的死后损伤信号。读段的平均片段长度在54.49至68.09 bp之间,这与脱嘌呤作用导致的古DNA片段化模式相符41

根据Sex.DetERRmine[28]的输出结果,LSM_3和SM_1具有较高的X比率(LSM_3为0.715,SM_1为0.779),可能具有XX染色体核型,表明这两个样本为女性(表S1)。除LSM_4外,其余七个样本在1240 K位点组上覆盖了超过100,000个SNPs(146,528-723,608),足以进行相对准确的群体遗传学分析。所有样本都显示出较低水平(

image.png

**图1. 将山西-陕西地区新石器时代晚期人群置于东亚和东南亚人群遗传背景下的主成分分析。**将古代样本投射到基于现代人群计算的前两个主成分轴上。虚线椭圆分别表示东北亚相关线(黄色)、东南亚相关线(蓝色)和汉藏语系相关线(红色)所占据的区域。(关于本图图例中颜色的解释,请参阅本文的网络版本。)

新石器时代晚期陕西-山西地区样本投射在汉藏语系相关线和东北亚相关线的交叉区域,与黄河流域的古代人群聚集在一起(图1)。陕西-山西地区新石器时代晚期人群的遗传位置表明他们与中原地区古代人群有着密切的关系。当以f3(Mbuti;参考人群X,陕西-山西地区新石器时代晚期人群)的形式测量时,这些人群之间或与黄河流域周边的其他古代人群(如圣格达梁遗址的石峁_LN或庙子沟遗址的庙子沟_MN)表现出最高的遗传相似性(图S5和表S3)。这些人群被证实符合YR_MN和AR_EN相关祖源的双向混合模型[13]。我们还进行了K值从2到8的一系列无监督ADMIXTURE分析,以获得对目标人群遗传祖源的更多见解(图S3)。交叉验证误差从K=2到8逐渐增加,K=6之后出现模式不一致(图S4)。这意味着难以直接和稳健地确定最优K值[44]。尽管如此,我们需要对东欧亚大陆内部的祖源分化进行表征,特别是在东亚北部人群中。选择具有最低交叉验证误差的K=2进行解释将无法满足这一要求。相反,我们选择了K=4,其中东亚北部相关祖源被分为东北亚相关亚群(黄色)和青藏高原相关亚群(红色)(图2)。与东亚南部相关祖源(蓝色)一起,这三个东欧亚相关祖源对应于PCA图上的三条线(图1)。在K=4的ADMIXTURE结果中,除LSM_1外,陕西-山西地区新石器时代晚期的所有人群都显示出与石峁_LN非常相似的遗传特征(图2),表明陕西-山西地区新石器时代晚期存在共同的遗传联系。

image.png

**图2. 在K=4时东亚和东南亚人群的ADMIXTURE分析结果。**观察到三种在东欧亚人群中富集的祖源成分:黄色表示东北亚相关祖源,红色表示青藏高原相关祖源,蓝色表示东南亚相关祖源。此外,灰色代表以阿凡纳谢沃文化人群为代表的西欧亚相关祖源。(关于本图图例中颜色的解释,请参阅本文的网络版本。)

为了进一步理解这种共同的遗传特征,我们使用qpAdm对目标人群和相关人群进行建模。在此,我们采用了一个锦标赛式的框架[45]来比较竞争模型。我们选择AR_EN或玉民作为东北亚相关来源,因为玉民和鲁山毛遗址共享居室葬的埋葬习俗。黄河流域周边的人群最适合用玉民相关(7.8-23.7%)和YR_MN相关(76.3-92.2%)祖源的双向混合来建模(图4)。值得注意的是,新报告的石峁遗址个体具有最低比例的玉民相关祖源。相比之下,35公里外的圣格达梁遗址的个体(石峁_LN)携带了比其他陕西-山西地区新石器时代晚期人群更多的玉民相关祖源,这表明这种混合祖源在不同遗址间的相对比例存在异质性。

3.3. LSM_1是陕西-山西地区新石器时代晚期的遗传异常值
尽管陕西-山西地区新石器时代晚期的人群形成了一个由上述双向混合祖源联系在一起的遗传聚类,但我们仍然发现鲁山毛遗址的LSM_1携带着意想不到的红山文化相关遗传背景。我们计算了一系列f4统计量(形式为f4(Mbuti,参考人群X;其他陕西-山西地区新石器时代晚期人群,LSM_1)),以确定LSM_1是否与其他人群共享更多等位基因。LSM_1显示出与WLR_MN的强烈遗传亲缘关系,这从f4统计量的显著正值(Z > 3)得到证实(图3和表S4)。在测试不同古代人群对之间遗传同质性的成对qpWave分析中,LSM_1也与WLR_MN(p = 0.95)和庙子沟_MN(p = 0.46)聚类,表明其遗传特征与周围同期人群有很大不同(p < 0.05)(图S6)。s

image.png

**图3. 形式为f4(Mbuti,参考人群X;LSM_1,其他陕西-山西地区新石器时代晚期人群)的f4统计量,与表S4相关。**绘制了前10个和最后10个值。误差棒表示一个标准误。显著的正值(Z > 3)表明参考人群与第一条带的人群比与第二条带的人群共享更多的遗传漂变,反之亦然。与其他陕西-山西地区新石器时代晚期人群相比,LSM_1显示出与红山文化相关人群(WLR_MN)的额外遗传亲缘关系。

在主成分分析和ADMIXTURE分析中,LSM_1偏离了陕西-山西地区新石器时代晚期其他人群共有的遗传模式,这与基于f统计量的分析结果一致。在由PC1和PC2组成的PCA空间中,LSM_1向东北亚相关线方向偏移(图1)。无监督ADMIXTURE分析中LSM_1携带的过量东北亚相关成分也强化了这种来自古代东北亚人群的额外基因流(图2)。LSM_1最适合用玉民相关和YR_MN相关祖源的双向混合来建模,两者的比例与WLR_MN非常相似(图4和表S5)。此外,以f3(Mbuti;参考人群X,LSM_1)形式的外群f3统计量表明,LSM_1与WLR_MN共享最多的遗传漂移(图S5和表S3)。这些结果呼应了qpWave证实的LSM_1和WLR_MN之间的同质性(图S6)。

image.png

**图4. 陕西-山西地区新石器时代晚期人群及相关古代人群的最佳双向qpAdm模型,与表S5相关。**误差棒表示通过刀切重抽样估计的一个标准误。每个qpAdm模型的P值显示在右侧。

3.4. ROH分析揭示了可能存在的近亲婚配关系
我们还使用hapROH检查了陕西-山西地区新石器时代晚期古代样本中大于4 cM的同源区段(ROH)。令人惊讶的是,我们发现LSM_1携带了总长254.75 cM的ROH,其中最长的一段跨越41.32 cM,这表明其父母之间存在亲缘关系。相比之下,在其他样本中只检测到一个ROH片段(∼6 cM, SM_2)。我们随后筛查了中国北方其他相关样本中潜在的ROH,发现两个WLR_MN个体也携带大量ROH片段。一个解释是,这些伴随着WLR_MN相关祖源的ROH可能与红山文化中观察到的神权统治实践有关[46]。在这种神权社会中,宗教阶层可能有特殊的维持血统的观念和习俗,从而导致近亲繁殖。

image.png

**图5. 陕西-山西地区新石器时代晚期个体携带的同源区段(ROH)片段。**LSM_1携带的ROH片段比其他个体多得多。右侧的面板显示了由近亲繁殖(左)或有限种群规模(右)导致的ROH的理论预期。

LSM_1携带的大量短ROH片段与其他个体缺乏ROH片段形成鲜明对比,这也表明LSM_1可能具有较小有效种群规模的遗传背景,并且没有与陕西-山西地区其他人群发生遗传混合。

4. 讨论
新石器时代晚期的陕西-山西地区是中原和北方草原古代人群接触和文化交流的前沿[1],在黄土高原上形成了一系列大型聚落,其中以陶寺、石峁和鲁山毛遗址最为显著。这三个遗址之间的文化联系和共同的祭祀习俗表明可能存在人口互动。本研究对陕西-山西地区新石器时代晚期8个古基因组的群体遗传学分析表明,这些人群的遗传位置与其地理分布相关,显示出以黄河流域相关祖源为主、古东北亚相关祖源为辅的遗传背景,这与中原和北方草原的双重文化影响相一致[6]。比较qpAdm建模(图4和表S5)揭示,东北亚相关祖源可能与玉民遗址有关,该遗址在时空上较为接近,并且与鲁山毛遗址共享居室葬的埋葬习俗。然而,由于玉民遗址的样本量仅为1,这可能降低了qpAdm确定最佳模型的能力[47]。因此,我们希望这里报告的qpAdm结果能得到更谨慎的对待。这个警告也适用于涉及LSM_1和TS的模型,其中目标人群的样本量为1。需要对周边地区的早期和中期新石器时代人群进行更全面的取样,以探索这种东北亚相关祖源的潜在最佳代表。

尽管大多数个体具有相似的祖源构成,但LSM_1被发现是陕西-山西地区新石器时代晚期的遗传异常值。这个个体携带较高比例的东北亚相关祖源,与红山文化相关人群(WLR_MN)相似(图2、图4和表S5)。对LSM_1携带的ROH片段的研究也表明,其ROH片段长度超过250 cM,LSM_1可能是一对一级表亲后代(图5)。考虑到在红山文化相关人群中也检测到大量ROH,我们推测这种红山文化相关祖源和近亲繁殖的共同出现可能源于红山文化的神权社会。红山文化以大量随葬玉器和用于宗教祭祀仪式的石质祭坛而闻名[48]。这些文化习俗在班棱山遗址(WLR_MN所属)也发挥着主导作用[49]。宗教或祭祀行为是红山文化社区社会权力体系的核心,表明其人群非常重视神权力量。对神权力量的高度重视可能使血统维持神圣化,从而促进了近亲婚配的实践。

然而,我们不能排除较小种群规模的影响,这从WLR_MN携带的大量短ROH片段可以看出(图S7)。LSM_1被埋葬在一个带有人牲的居室葬中,这种祭祀性埋葬习俗在概念上与红山文化的做法有某种共鸣。基于这些观察,我们初步提出神圣化等级制度与内婚制之间的联系。鉴于这一假设的推断性质以及需要直接的考古遗传学验证亲缘关系,对更多红山文化相关个体进行广泛和分层的取样,以及对不同地位群体之间近亲繁殖模式的比较分析,对进一步验证这一假设至关重要。LSM_1的Y染色体单倍群N1b2也将其与东亚北部更广泛的地区联系起来,这一单倍群在古代藏族[50]和匈奴[51]人群中都有出现,尽管携带这一单倍群的人群可能在铁器时代逐渐迁移到东南亚[52,53]。

另外两个值得注意的个体是SM_1和TS。与SM_1一起出土的青铜和玉环饰品表明其贵族身份,基于遗传数据的生物学性别判定确认SM_1是女性(表S1),表明在新石器时代晚期的社会分层中,女性可以拥有贵族地位。TS是陶寺中期的王族[54],在考古学上被认为与传说中的中国古代领袖舜帝有关[55]。他的Y染色体单倍群是Oβ(表S1),这是现代汉族男性中一个重要的创始单倍群[42],表明古代统治者与现代人群之间共享父系血统。

我们的研究为陕西-山西地区新石器时代晚期人群提供了一个遗传快照,阐明了他们与黄河流域仰韶文化相关人群的密切遗传联系以及少量的东北亚混合。LSM_1的特殊遗传背景表明存在跨区域人口互动,这可能是一次规模较小且与当地人群遗传混合有限的迁徙。未来,需要在山西、陕西及周边地区进行更详细和全面的古基因组调查,以获得对中国北方广泛的遗传交流和复杂人口动态的更深入见解。

作者贡献声明
黄子帅:写作-初稿、可视化、方法学、形式分析、概念化。
高嘉琪:方法学。
马明志:资源。
胡文高:资源。
肖新:资源。
李辉:写作-审阅和编辑、监督、项目管理、资金获取、概念化。

数据可用性本文报告的未修剪BAM文件已存储在中国国家生物信息中心/中国科学院北京基因组研究所的国家基因组数据中心的基因组序列档案中(登录号PRJCA037932),可在https://ngdc.cncb.ac.cn/gsa-human访问。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号