可移动元件(也被称为转座子或转座元件)约占人类基因组的一半。在人类基因组中,Alu、LINE-1(L1)、SINE-VNTR-Alu(SVA)以及HERV-K等是普遍认为仍然活跃的可移动元件家族,它们能够通过转座作用在基因组上形成新的插入,这种现象被称为可移动元件插入(Mobile Element Insertion,MEI)。转座事件有可能会打断基因组上的功能区域,破坏正常的基因功能,影响转录本的表达或剪接,进而导致疾病。目前已有超过120种人类遗传疾病被报道与转座子介导的插入相关,包括血友病、丹特病、神经纤维瘤病和癌症等。除了通过插入事件产生影响外,可移动元件的内在序列特性赋予了一些MEI对宿主的功能影响,使得MEI与其他典型的结构变异有了质的区别。同时,MEI整合位点的偏好性一直以来也是研究者关注的重点。这些位点的分布并不均匀,受到如DNA序列和染色质环境等各种因素的影响。
尽管MEI具有重要的功能,但是针对人类基因组中多态性转座元件的整合资源却十分缺乏,而这种资源恰恰是表型与变异关联分析的基础。2017年,千人基因组计划对2504个基因组中的MEI进行了全面分析,鉴定了超过20000个多态性的MEI位点。Watkins等人利用来自Simons Genome Diversity Project的296个基因组数据分析了MEI在全球人群中的变异特征,扩展了基于千人基因组数据集的发现。然而,这些MEI的遗传资源主要来自欧洲人群。即使在目前最大的结构变异研究队列gnomAD-SV中,也只有1304个样本来自东亚地区。由于中国汉族是东亚乃至世界范围内人口最多的族群,针对中国人群的MEI研究和资源都是十分匮乏的。
为此,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队合作,于2022年02月25日在国际学术期刊《Nucleic Acids Research》在线发表了题为"Characterizing Mobile Element Insertions in 5,675 genomes"的文章(图1),介绍了该团队关于MEI的最新工作。本研究在人群水平对MEI的基因组分布、突变特征、功能影响等进行了系统分析,构建了一个全面的MEI资源库,尤其是针对中国人群的MEI图谱。该工作是中国科学院生物物理研究所徐涛院士、何顺民研究员牵头的 "女娲" (NyuWa) 中国人群基因组计划的一部分。"女娲"中国人群基因组计划前期已经发布了中国人群遗传变异图谱和参考面板,以及中国人群基因组资源库(http://bigdata.ibp.ac.cn/NyuWa/),为中国人群的遗传学与医学研究奠定基础。
图1. 文章发表于Nucleic Acids Research
作者结合来自"女娲"基因组资源的2998个高深度全基因组测序数据和来自千人基因组计划的2677个低深度全基因组测序数据对MEI进行了系统性地鉴定。经过位点质量过滤,共保留了36699个非参考MEI(non-reference MEI),其中包括26553个Alu,7353个L1,2667个SVA和126个HERV-K。平均每个个体都可以检测到超过1000个MEI变异,其中绝大多数都是Alu元件的插入。
图2. 本研究中鉴定MEI数目
作者使用鉴定的MEI数据分析了MEI的染色体分布,发现L1插入在着丝粒附近区域有着明显的富集。着丝粒DNA附近L1插入变异的富集可能是由于着丝粒附近较多的α卫星序列造成的,相对较低的GC含量更有利于L1的插入。另一方面,考虑到以往研究发现的新着丝粒区域活跃的转座子可能有助于着丝粒的新生,作者认为L1在着丝粒区域的富集也可能存在重要的生物学意义。这一发现有待于后续的研究去探明。
图3. MEI在染色体上的分布
接着,作者分别对两套数据("女娲" 和千人基因组)中MEI的突变率(per bp per generation)进行估计,"女娲"数据为 1.609 x 10-11,千人基因组数据为 1.464 x 10-11--二者结果非常接近,大约每16-17个新生儿中会产生1个新的MEI事件。此外,通过比较不同人群中MEI的多样性和SNP的杂合度,作者发现二者表现出很高的相关性,其中非洲人群有着最高的MEI多样性和SNP杂合度(图 4)。
图4. SNP杂合度与MEI多样性的相关性
理论上,蛋白质编码区的MEI可以通过打断开放阅读框而导致基因功能丧失。作者在对MEI进行了功能注释后,发现每个人平均含有24个会截断蛋白质的MEI(图5)。结合短变异(SNP和InDel)与其他结构变异来看,MEI贡献了每个个体中大约9.4%的蛋白质截断变异。这一结果表明了在全基因组数据的常规分析中纳入MEI的重要性。
图5. 每个基因组中MEI导致的蛋白质截断变异数量
L1的插入通常伴随着3转导,即把其原来3末端下游的序列一起插入到新位点中。根据这一特征,作者对L1的source-offspring关系进行了分析,鉴定了一些新的source-offspring关系对,找到了一些潜在活跃的L1位点,并发现了其在不同人群中分布的差异(图6)。
图 6.L1 3转导
最后,为了方便可移动元件研究人员查询和使用,作者构建了一个开放数据库HMEID来收录本研究中鉴定的MEI,其地址为:http://bigdata.ibp.ac.cn/HMEID/。此外,本数据库也是 "女娲" 基因组数据资源的一部分(http://bigdata.ibp.ac.cn/NyuWa_variants/)。
综上所述,作者报道了一个构建于5675个基因组的36699个非参考MEI的综合图谱,包括2998个中国样本(~26.2X,NyuWa)和2677个来自千人基因组计划的样本(~7.4X,1KGP)。发现L1的插入在着丝粒区域高度富集,这意味着染色体环境在转座元件插入中的可能作用。经过功能注释,作者估计MEI贡献了每个人蛋白质截断事件的9.3%。最后,作者建立了一个名为HMEID的配套数据库供公众使用。这一资源代表了目前关于MEI的最新和最大的全基因组研究,期望它将在探索人类MEI的新知识中发挥作用。
中国科学院生物物理研究所的何顺民研究员、徐涛院士为该论文共同通讯作者,中国科学院大学生命科学学院的博士研究生牛仪伟、中国科学院生物物理研究所的博士研究生滕学奕、中国科学院生物物理研究所的副研究员周红红博士为该文并列第一作者。本研究得到了中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家基因组科学数据中心的支持。