上海交大吕晖课题组开发出基因组二代测序数据质控新方法

上海交通大学  |   2022-10-24 18:00

近日,国际知名期刊《Communications Biology》在线发表了上海交大吕晖教授课题组题为“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果。该研究提出了一种新的基因组二代测序数据质量控制方法,有效提升了二代测序检出的基因变异的可靠性。上海交大生命科学技术学院博士毕业生任永永、孔艳博士后为共同第一作者,生命科学技术学院吕晖教授和赵宏宇教授为共同通讯作者。

全基因组二代测序技术已广泛应用在儿科遗传疾病诊断、肿瘤基因组图谱分析、全基因组关联分析等基因组研究领域,但由于测序和分析误差,检出的SNV和INDEL变异类型中存在大量假阳性变异,给基因组图谱分析和遗传疾病的鉴别诊断带来了较大的噪声干扰。目前已有多个方法可用于过滤二代测序检出的假阳性变异,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF,但这些方法在过滤假阳性变异的同时,损失了数倍的真变异,严重干扰了下游的遗传疾病诊断和分子功能研究。

为解决上述问题,吕晖团队构建了自适应过滤方法FVC (Filtering for Variant Calls),用于对不同遗传变异分析软件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)检出结果中的假阳性变异进行过滤。

图片1.png

研究结果显示,相较于其它过滤方法,新方法FVC过滤掉了更多的假阳性变异,同时召回了其它过滤方法遗漏的~51-99%真阳性变异,当使用评价指标OFO(Odds of false omission, 损失的真阳性变异个数与过滤掉的假阳性变异个数之比,又名真阳性损失比)进行性能评价时,FVC将真阳性损失比OFO从0.05-1661.28降低至0.02-0.57。为排除潜在的数据泄露和过拟合导致的评估偏差,分别使用留一染色体交叉验证(leave-one-chromosome-out cross-validation)、留一个体交叉验证(leave-one-individual-out cross-validation)和独立测试集进行验证,FVC同样获得了最佳性能。

该工作得到上海交通大学高性能计算中心(HPC)、沈南鹏上海交通大学“医学研究基金”和中国国家重点研发计划(2018YFC0910500)的支持。

论文链接:https://www.nature.com/articles/s42003-022-03397-7

作者:生命科学技术学院供稿单位:生命科学技术学院
内容来源:上海交通大学

来源:上海交通大学

原文链接:https://news.sjtu.edu.cn//jdzh/20221024/175497.html

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

相关推荐 换一换

  • 金光
    0
    科技工作者之家是我每天学习的平台,活到老学到老感谢这个平台!!
  • 史庆垒
    0
    科界是个很好的学习平台,使我进步开阔眼界!非常感谢!
  • 任家良
    0
    身体也是这个道理,很多时候我们年轻的时候轻而易举的动作,或者曾经"金刚不坏"的身体,会随着年龄的增长而再也没有当初那么举重若轻。遇到这种情况的时候,很多人会感到很失落。
  • 王增年
    0
    二十四节气之霜降,秋天最后一个季节,也是色彩斑斓的季节,也是意蕴乡愁的季节。
  • 苏明利
    0
    二十四节气之霜降,秋天最后一个季节,也是色彩斑斓的季节,也是意蕴乡愁的季节。
没有更多了