10月23日,《国家科学评论》杂志在线发布了第一个藏族人群高质量参考基因组。该成果是中国科学院昆明动物研究所宿兵课题组、西藏大学欧珠罗布与崔超英课题组、中国科学院上海营养与健康研究所徐书华课题组、青海省高原医学科学研究院吴天一课题组等,经过两年多联合攻关完成的藏族人群高原适应研究的又一阶段性成果,旨在利用长片段基因组数据从头组装藏族人群的高质量参考基因组,以期解析藏族人群基因组中的大片段结构变异对高原低氧环境的遗传贡献。
世居高原的藏族人群对极端低氧环境的适应是人类适应性进化的典型例子,一直以来受到广泛的关注。以往对于藏族高原适应的遗传分析主要集中在基于二代短读长测序数据的单核苷酸变异位点(Single Nucleotide Variants, SNVs)的研究,且发现了两个与藏族高原适应相关的关键基因EPAS1和EGLN1,解释了藏族人群较低血红蛋白浓度这一适应表型。然而,除了血红蛋白浓度,藏族其他的高原适应特征(比如较高的通气量、较低的肺动脉压等)还不能被SNVs解释。众所周知,基因组上的大尺度结构变异(Structural Variants,SVs)可能影响染色质空间结构及基因的表达调控,与疾病和进化表型也可能相关,但藏族人群基因组中的SVs对高原适应是否有贡献,仅有EPAS1基因下游一个大片段缺失的一例报道,缺乏对全基因组水平SVs的系统研究。
为了系统解析藏族人群全基因组SVs,研究人员利用三代长读长测序技术以及多种辅助组装技术,从头组装了一个高质量的藏族人参考基因组(珠峰1号,ZF1)。相比于目前已有的人类参考基因组,ZF1具有更好的序列连续性和完整性。利用该基因组,研究人员找到了17900个ZF1中发生的SVs,其中6505个是ZF1有别于其他两个东亚人(HX1和AK1)的SVs。功能富集分析发现,这些ZF1特有的SVs相关基因的功能显著富集在一个重要的低氧通路——GTPase活性调控通路上。通过进一步的群体分析,研究人员发现了一个发生在MKL1基因内含子上的163bp缺失,这个缺失在藏族和汉族群体中表现出显著的频率差异,且该缺失与藏族较低的肺动脉压显著相关。另外,研究人员系统评估了藏族基因组中与古人类(尼安德特人和丹尼索瓦人)共享的基因片段,发现ZF1相比于其他东亚个体的基因组有更高的共享片段比例(1.32%-1.53%)。其中一个典型的例子是发生在SCUBE2基因内含子上一个662bp的插入,分析发现该插入在藏族中富集并与藏族的肺功能显著相关。
该基因组是第一个利用长片段序列从头组装的藏族人群的高质量参考基因组,并利用该基因组系统解析了藏族人群全基因组水平的结构变异元件数据集,将会为今后藏族高原适应的医学和进化研究提供重要的基础数据资源。欧珠罗布、昆明动物所副研究员和耀喜、营养与健康所(马普计算生物学所)博士楼海一、邓恋,以及西藏大学教授崔超英为文章的共同第一作者,宿兵、昆明动物所副研究员祁学斌和营养与健康所徐书华为文章的共同通讯作者。
ZF1基因组的质量评估以及结构变异解析