古代线粒体基因组揭示中国北方史前石峁人群的起源与遗传结构

石峁遗址被认为是黄河中游地区新石器时代晚期龙山文化时期的一个重要政治和宗教中心。石峁人群与其他古代人群,特别是陶寺相关人群之间的遗传历史和人口动态仍然未知。在这项研究中,我们对黄河中游地区陕西北部石峁文化和山西南部陶寺文化相关的个体,从仰韶到龙山时期的172个完整线粒体基因组进行了测序。我们的研究结果表明,居住在石峁遗址的人群与陕西北部新石器时代中期仰韶时期的早期人群有着密切的遗传联系,揭示了石峁社会主要具有本地起源。此外,在黄河流域其他地区的人群中,石峁相关人群与龙山时期的同期陶寺人群具有最近的母系亲缘关系。石峁相关人群与当今中国北方汉族人群的亲缘关系也比与少数民族和南方汉族更为密切。我们的

古代线粒体基因组揭示中国北方史前石峁人群的起源与遗传结构

石峁遗址被认为是黄河中游地区新石器时代晚期龙山文化时期的一个重要政治和宗教中心。石峁人群与其他古代人群,特别是陶寺相关人群之间的遗传历史和人口动态仍然未知。在这项研究中,我们对黄河中游地区陕西北部石峁文化和山西南部陶寺文化相关的个体,从仰韶到龙山时期的172个完整线粒体基因组进行了测序。我们的研究结果表明,居住在石峁遗址的人群与陕西北部新石器时代中期仰韶时期的早期人群有着密切的遗传联系,揭示了石峁社会主要具有本地起源。此外,在黄河流域其他地区的人群中,石峁相关人群与龙山时期的同期陶寺人群具有最近的母系亲缘关系。石峁相关人群与当今中国北方汉族人群的亲缘关系也比与少数民族和南方汉族更为密切。我们的研究为理解石峁人的遗传起源和结构,以及新石器时代黄河中游地区的人口动态提供了新的视角。

北方中国是一个包括黄河流域在内的广大地理区域,其境内的新石器时代文化(如仰韶文化和龙山文化)为中华文明的起源奠定了重要基础。中期新石器时代(距今约7000-5000年)的仰韶时期是一个快速发展和扩张的阶段,在上游形成了马家窑文化(约5700年前),在中游形成了大河村文化(约5700年前),在下游形成了北辛(约5400年前)和大汶口文化(约6000年前)。这种文化发展和扩张与北方中国全新世气候最适期相吻合。

在晚期新石器时代龙山时期(约4500-3800年前),黄河流域不同地区(陕西约4300年前;河南约4400年前;山西约4500年前)的文化特征在空间上呈现差异,社会复杂性增加,形成了具有不同社会等级的独特聚落。随着时间推移,不同考古文化对黄河流域各区域的影响动态变化,这可能伴随着人口流动和互动。

石峁遗址(约4300-3800年前),又称"石峁城",被认为是黄河中游龙山时期(约4500-3800年前)的重要政治和宗教中心。它是目前中国已知最大的新石器时代聚落,占地4平方公里,具有三重石筑城墙结构,被评选为过去十年全球十大考古发现之一。石峁城的中心皇城台有许多高等级建筑和文物。内城环绕皇城台,包含多处墓地(如韩家圪垯、后杨湾和马黄梁)。东门位于外城东北部城墙,展现出复杂的防御工事。

根据考古记录,石峁城内这些不同地点显示出明显的社会等级和不平等。例如,韩家圪垯、后杨湾等靠近皇城台的地区,出土的高等级墓葬比东门多。考古学家根据石峁城出土的文物命名了"石峁文化"。陕西北部邻近石峁城的遗址,如木竹竜梁、圣格大梁、新华和寨山遗址,都被归属于石峁文化。然而,石峁城的起源仍不确定。有观点认为石峁文化是在周边文化影响下由本地人群发展而来,也有观点认为可能源于中原或其他地区人群的迁徙。

此外,最近的研究表明,在新石器时代晚期,石峁文化与黄河流域陕西北部以外的其他地区频繁互动,尤其是与山西南部的陶寺文化。这两种文化之间的联系可能是政治、经济、文化或人口联系。然而,从考古学和体质人类学的角度来看,石峁人和陶寺人之间的互动仍然模糊。虽然有一些包含陕西北部圣格大梁和吴庄郭梁遗址样本的基因组分析,但与石峁文化相关的人群及其前辈,以及黄河流域不同地区其他人群之间的大规模遗传亲缘关系仍不清楚。

image.png

在本研究中,我们对黄河中游地区的多个考古遗址,特别是石峁文化和陶寺文化相关的个体,测序了172个完整的线粒体基因组。我们的研究提供了大规模的线粒体基因组数据,为探索石峁相关人群以及新石器时代黄河中游地区人群的母系遗传历史和动态提供了新的视角。

材料与方法

古DNA提取和文库构建

我们从13个遗址的172个古代人类个体中采集样本。考古细节在补充材料中有详细描述。我们从每个古代样本不到100毫克的骨骼或牙齿残留物中提取DNA。所有古DNA工作都在中国科学院古脊椎动物与古人类研究所的古DNA洁净实验室中进行,遵循严格的古DNA标准。

我们制备了单链和双链文库,并部分使用尿嘧啶-DNA糖基化酶处理以去除脱氨基胞嘧啶。使用AccuPrime Pfx DNA聚合酶进行35个循环的扩增。添加了P5和P7接头以限制污染率。使用NanoDrop2000分光光度计监测DNA浓度。

古DNA捕获和测序

为了从高水平的环境DNA背景中富集内源古DNA,我们使用了DNA捕获技术。线粒体DNA的溶液捕获是通过重叠探针与DNA片段并富集所得文库来完成的。探针是基于人类线粒体基因组合成的。

富集后,使用Illumina Miseq平台生成2×76 bp双端测序数据。使用leeHom软件修剪接头并合并序列,双端测序读段至少重叠11 bp。将长度至少为30 bp的测序和合并读段与修订的剑桥参考序列版本17(rCRS)进行比对。我们移除了重复序列并保留了映射质量最高的序列。去除映射质量低于30的序列后,我们构建了完整的线粒体序列。

污染检测

我们使用ContamMix软件评估污染率,并将mtDNA片段与我们新采样个体的一致性线粒体基因组和311个现代全球序列进行比较。如果超过4%的片段与其他序列匹配得比一致序列更好,我们就认为文库受到污染。对于污染率较高的文库(污染率>4%),我们将其排除。在172个新的mtDNA样本中,166个样本的污染率较低(<4%,平均0.95%)。

亲缘关系分析

如果来自同一墓葬的mtDNA序列完全相同,我们将其视为具有亲缘关系的个体。使用Bioedit软件进行亲缘关系检测。最终,我们发现了四对可能具有母系亲缘关系的序列。我们在每对中排除了覆盖率较低的样本。

总计,我们测序了172个个体的完整线粒体基因组。在去除那些污染率较高和具有亲缘关系的样本后,162个个体的测序深度在20.74倍到827.53倍之间(平均253.95倍),这些样本被用于分析。

单倍型分析

使用MUSCLE和Bioedit软件将完整的mtDNA序列与rCRS进行比对和编辑。使用基于Phylotree Build 17的Haplogrep2为每个样本确定单倍群。我们将在石峁城及其周边地区人群中未出现的所有单倍群归类为"其他"。由于单倍群R和N在东亚和西欧都有分布,我们使用R#和N#(如在石峁相关人群中也观察到的单倍型R+16189、亚单倍群R11和N9)来代表我们数据集中东亚人携带的单倍群。在西欧人中发现的其他R和N亚单倍群(如亚单倍群R1、R2、N1、N2)被归类为"其他"。

主成分分析和单倍群共享

此外,我们计算了每个群体的单倍群频率,并使用R软件中的内置函数"prcomp"进行主成分分析。我们绘制PC1和PC2来说明群体间的单倍群差异,并探索群体间的母系遗传关系。

我们计算了群体间单倍群共享的配对矩阵。矩阵中的条目代表两个群体共享的单倍群比例,通过对它们之间所有相同单倍群的共享频率求和来计算。每个群体的比例通过除以总数并求和为1来标准化。

主成分判别分析

我们还使用主成分判别分析(DAPC),该方法在最大化群体间变异的同时最小化群体内变异,以显示黄河流域古代人群之间的母系遗传关系。我们使用R软件中"adegenet"包的DAPC函数进行基于序列的DAPC分析。

遗传距离分析

使用Arlequin软件包计算群体间的遗传距离(FST),并使用R中的"pheatmap"包进行可视化。通常,较低的FST表示两个群体之间具有更近的母系遗传关系。还绘制了热图来说明基于FST的聚类的统计显著性。

单倍型网络构建

为了探索样本中特定单倍型的遗传关系,我们使用DNASP6和PopArt 1.7对同一单倍群(亚单倍群或单倍型)数据集中的所有样本进行中介连接网络分析,并构建单倍型网络图。这有助于我们理解单倍型群体的流入或扩散过程。

结果

样本和古DNA产生

我们从黄河中游陕西北部和山西南部13个考古遗址的172个古代个体中捕获了线粒体DNA,年代范围为4,836至3,253校正年前。去除6个污染率高(>4%)的个体和4个具有近亲关系(定义为具有相同的mtDNA序列)的个体后,最终得到162个个体的数据集,测序深度在20.74倍到827.53倍之间。

在这些新样本中,我们从陕西北部的庙梁和吴庄郭梁遗址获得了21个样本(称为"preShimao_MW"群体),年代为新石器时代中期仰韶时期的4,836-4,530校正年前。此外,我们从陕西北部龙山时期获得了91个样本,其中66个来自石峁城,35个来自石峁城周边遗址。

我们根据考古文化、年代和地理位置将石峁城的个体分组:10个个体出土于政治和宗教中心皇城台遗址,我们命名为"Shimao_HCT"(4,148-3,895校正年前);44个个体来自内城,我们将其分组为"Shimao_NC"(3,977-3,699校正年前),包含韩家圪垯、后杨湾和马黄梁遗址的个体;12个个体来自外城东门遗址,我们命名为"Shimao_DM"(4,144-3,253校正年前)。

从石峁城周边的新华(XH,n=9,4,231-3,650校正年前)、木竹竜梁(MZZL,n=4,4,082-3,722校正年前)、圣格大梁(SGDL,n=12,3,969-3,570校正年前)和寨山(ZS,n=10,约4,050-3,750年前)遗址出土的个体,我们用其遗址名称的缩写命名。由于MZZL和SGDL具有相似的考古文化、位置和年代,且MZZL遗址的群体规模较小(n=4),我们将它们合并为"MZZSGDL"(n=16)。

此外,我们从黄河中游山西南部与陶寺文化相关的"TSZJZ"群体(约4,150-3,696年前,包含陶寺和周家庄遗址)中测序了40个龙山时期个体的mtDNA。

我们还收集了801个先前发表的东亚和西欧早期新石器时代至历史时期的古代个体的mtDNA序列。这些包括来自新疆(约5,000-500年前)、甘肃和青海省(约5,040-411年前)、河南省(约5,500-5,000年前,清台遗址)、山东省(约9,600-2,000年前)、青藏高原(约3,000-100年前)、东南亚(约4,600-300年前)、南西伯利亚贝加尔河(约7,123-6,319年前和约4,860-3,760年前)、蒙古(约3,330-2,950年前和约2,147-2,007年前)以及草原和西欧(约5,450-1,500年前)的群体。同时,我们还获得了内蒙古(约4,500年前,哈拉海沟遗址)个体的单倍群信息。

对于现代群体,我们收集了7,641个来自东北亚人(NEAs,包括北亚和东北亚人)、东南亚人(SEAs,东南亚和东南亚人)和中西欧人(CWEs)的个体。在这些群体中,2,102个个体来自中国,包括388个来自中国北方的汉族个体和168个来自南方的个体,我们分别命名为"NChina_Han"和"SChina_Han"。我们还收集了来自16个少数民族的548个个体,涵盖了中国绝大多数少数民族。我们根据其民族将它们作为不同的群体。现代群体还包括西藏("SChina_Tibet")和台湾("SChina_Taiwan")的群体。

石峁人群主要源自陕西北部早期人群的本地起源

为了理解龙山时期石峁人群与新石器时代中期前期人群之间的遗传联系,我们收集了陕西北部新石器时代中期preShimao_MW遗址的21个个体和龙山时期石峁城的66个个体。

单倍群分析发现,古代和现代东北亚人显示出A(最大71.43%)、C(最大55.00%)、D(最大60.00%)和G(最大37.50%)单倍群的高比例,呈现出北南递减趋势。B(最大36.36%,B4'5)、F(最大40.00%)和M(最大83.33%)单倍群在古代和现代东南亚人中常见,呈现出北南递增趋势。

陕西北部新石器时代中期(4,836-4,530校正年前)的早期人群preShimao_MW携带A(9.52%)、C(4.76%)、D(23.81%)、G(4.76%)、B(9.52%,B4'5)、F(14.29%)、M(14.29%)、Z(4.76%)和R#(14.29%)单倍群,显示出较高比例的东北亚(而非东南亚)单倍群。

基于单倍群频率的主成分分析显示,PC1解释了从东到西的地理人群变异,PC2解释了从北到南的变异。总的来说,所有人群在遗传上分为三个群集:东北亚、东南亚和中西欧。preShimao_MW分布在东北亚人群中,并与黄河流域的人群聚类。此外,这个新石器时代中期人群显示出最高的D单倍群比例(23.81%),这在黄河流域人群中也有较高比例(18.18-44.83%)。

基于遗传距离的FST热图也显示preShimao_MW与黄河流域人群聚类。因此,陕西北部新石器时代中期仰韶人群(preShimao_MW)与黄河流域的东北亚人群的关系比与东亚其他地区的人群更近。尽管preShimao_MW与早期和中期新石器时代黄河流域人群之间没有显著的遗传亲缘关系(与QT_MN和SD_MN的FST>0.06,p<0.01;与SD_EN的FST=0.31,p>0.07),但DAPC显示preShimao_MW与黄河中游的QT_MN之间有一些重叠。在preShimao_MW和QT_MN中都观察到相同的单倍型G3a2、D5a2a1和F1a1c,表明它们之间存在一些联系。

image.png

对于龙山时期(约4,148-3,253年前)的石峁城人群,包括皇城台(Shimao_HCT)、内城(Shimao_NC)和东门(Shimao_DM)区域的人群,单倍群分析显示他们携带相似的单倍群:A(8.33-18.18%)、C(4.55-10.00%)、D(10.00-33.33%)、G(2.27-30.00%)、B(15.91-20.00%,B4'5)和M(8.33-11.36%)。石峁人群也显示出比东南亚主导单倍群更高比例的东北亚主导单倍群,其中东门区域(66.67%)显示出比皇城台(60.00%)和内城区域(52.27%)更高的东北亚主导单倍群比例。此外,内城区域还携带R#(4.55%)单倍群。内城和东门区域也有最高比例的D单倍群(27.27-33.33%),这与之前的石峁中期(preShimao_MW)和大多数黄河流域人群相似。主成分分析显示,三个石峁人群聚类并分布在黄河流域地区的东北亚人群中,这与单倍群分析结果一致。此外,我们发现三个石峁人群之间的遗传距离(FST值)都接近于零(FST < 0.01,p > 0.05),揭示了它们之间密切的遗传亲缘关系。在这三个人群中都发现了相同的单倍型(B4a4、C4a2、G2a1和G1c),进一步表明它们之间的密切关系。这些结果都表明,龙山时期石峁城不同区域的人群之间共享密切的亲缘关系。

我们还探究了石峁城龙山时期(4,148-3,253年前)人群与陕西北部及其他地区早期(4,500年前)人群之间的遗传联系。我们发现,陕西北部新石器时代中期(preShimao_MW)和龙山时期石峁人群携带相似的单倍群(A、C、D、G、Z、B、F和M),且皇城台和东门区域都与preShimao_MW一样具有最高比例的D单倍群。这些单倍群中的一些在陕西省外的早期人群中是缺失的。例如,清台中期新石器时代(QT_MN,约5,500-5,000年前)、山东早期新石器时代(SD_EN,约9,600-7,700年前)和山东中期新石器时代(SD_MN,约5,500-4,600年前)人群缺乏C单倍群,SD_EN和SD_MN缺乏F单倍群。判别分析也表明,石峁人群与陕西北部(而非省外)的前期人群(preShimao_MW)聚类。此外,三个石峁人群与前期中期新石器时代人群(preShimao_MW)在FST热图中聚类,并显示出它们之间最小的遗传分化(FST < 0.01,p > 0.05),而与陕西北部外的早期人群(QT_MN、SD_EN和SD_MN)显示更大的FST值(FST > 0.05)。这些结果表明,石峁城龙山时期人群与陕西北部(而非省外)早期中期新石器时代仰韶人群(preShimao_MW,4,836-4,530年前)显示出最密切的遗传亲缘关系。

这种密切关系还通过preShimao_MW和石峁相关人群之间共享的单倍型得到证实,包括D4亚支系的D4j3和D4b2b以及单倍型A+152+16362、F1a1c和R11,并且在中介网络分析中它们位于相同的分支上。然而,我们也发现龙山时期石峁人群与黄河中游早期清台中期新石器时代人群之间存在一些联系。这一点得到了单倍型M9a1a1和M10a1b的支持,在网络分析中这两个单倍型在这两个人群之间仅相差一个和四个突变。因此,龙山时期石峁城不同区域的人群(4,148-3,253年前)彼此之间以及与陕西北部(而非省外)前期中期新石器时代仰韶人群(4,836-4,530年前)共享密切的亲缘关系。这些结果揭示,陕西北部中期新石器时代仰韶人群在石峁城建立时并未被大规模替代,支持石峁人主要具有本地遗传起源的假说。然而,考虑到与其他黄河流域人群(如中期新石器时代清台)共享的单倍型,我们不能排除来自陕西北部以外人群的额外遗传贡献。

image.png

在这项研究中,我们还发现石峁相关人群与当今中国北方汉族人群有着较为密切的亲缘关系。我们比较了石峁相关人群及中国其他地区古代人群与北方汉族之间的遗传亲缘关系,包括甘肃-青海省的早期青铜时代、青铜时代、晚期青铜时代和铁器时代人群;河南省的中期新石器时代人群;山西南部的龙山时期人群;以及山东省的早期、中期和晚期新石器时代人群。

研究结果显示,石峁相关人群、山东晚期新石器时代人群和北方汉族都携带A、C、D、G、Z、B(B4'5)、F、M和R#等单倍群,而这些单倍群在其他人群中部分是缺失的。其中D单倍群在石峁相关人群(22.20-33.30%)、山东晚期新石器时代人群(26.00%)和北方汉族(25.84%)中都有较高的比例。单倍型共享分析表明,北方汉族与石峁相关人群共享的单倍型比例(6.04%)高于与其他古代人群的共享比例。

遗传距离分析也证实,北方汉族与石峁相关人群具有最近的遗传亲缘关系。这些发现表明,相比于其他已发表的中国古代人群,北方汉族与石峁相关人群有着更紧密的遗传联系。研究还发现,石峁城及其周边人群与北方汉族的亲缘关系比与南方汉族和少数民族更为密切。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号