来源:学术经纬
药明康德AI/报道
由于新的人工智能方法的出现,破解生物学最大挑战之一“从氨基酸序列预测蛋白质的三维结构”的“竞赛”正在加剧。任何给定的蛋白质能做什么,取决于它独特的3D结构。所以,能精确预测蛋白质的3D结构意义非凡。
▲ 预测蛋白质3D结构模型示意(图片来源:参考资料[2])
去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构,结果比以前的任何模型都要精确)的算法,它将该领域出现的两种技术结合起来,并在蛋白质结构预测方面以惊人的优势击败了当时已存在的所有算法。今年4月,一位美国研究人员展示一种与以往完全不同的算法,他声称,新AI系统在预测蛋白质3D结构方面将比DeepMind AlphaFold快100万倍。
不管是Alphafold还是新的AI系统,对于生物学家们来说,他们更关心的是:当两种方法都使用人工智能技术时,深度学习如何更好应用于预测蛋白质的排列并最终决定蛋白质的功能。目前已知使用AI比现有的实验室技术(如x射线晶体衍射)更便捷高效,具体体现如下:
首先能帮助科学家更好地理解蛋白质在人体内的作用。对于诊断和治疗由蛋白质错误折叠引起的疾病,比如阿尔茨海默氏症、帕金森氏症、亨廷顿氏症等,起到至关重要的作用;
还可以提高人们对身体工作原理的认识,促进新的疾病疗法诞生,降低新药研发成本;
另外,AI有助于更好地设计蛋白质,比如推动可生物降解酶的进步,帮助人们控制像类似于塑料这样的污染物。
“目前该领域的研究结果值得期待,”John Moult说。他是马里兰大学帕克分校的生物学家也是CASP(“蛋白质结构预测奥运会”)比赛的创始人。
Mohammed AlQuraishi的创新优化方法
最新算法的创造者,是来自哈佛医学院的生物学家 Mohammed AlQuraishi,他尚未直接将他的算法所能预测的精度与AlphaFold相比。AlQuraishi博士承认,AlphaFold基于结构生物学中常用的技术——用新的蛋白质片段反复替换蛋白质结构的片段,进而训练了一个生成神经网络来发明新的片段,用来不断提高蛋白质结构的评分。在这一技术上AlphaFold预测精确性的确要高得多。但他表示,由于他的算法使用相关函数来计算蛋白质结构,计算过程只需一步,而不是像AlphaFold那样分两步完成。所以新技术预测蛋白质结构的时间只需几毫秒,而不是几小时或几天。
科学界表示:AlQuraishi的新技术具有前瞻性。该新技术的创造建立在不断进步的深度学习理论以及他发明的一些新技术的基础上。在未来,当他的创新之举与其他人思想、研究结合起来时,可更进一步推动蛋白质折叠领域的研究和发展。
AlQuraishi新系统的核心是人工神经网络。它提供了有关氨基酸序列如何映射到蛋白质结构的已知数据,然后进行自主学习从不熟悉的序列再产生新的蛋白质结构。他的系统的新颖部分在于它能够端到端地直接创建映射; 而其他系统使用神经网络,需要先预测结构的某些特征,然后再用另一种算法费力地寻找包含这些特征的看似合理的蛋白质结构。目前,AlQuraishi的AI系统还需要几个月的时间去训练,一旦训练测试结束,这个新AI几乎可以立即将任何序列转换为蛋白质结构。
研究者把这种新的神经网络方法称为“循环几何网络”(geometry network),该方法基于某段结构之前和之后的序列信息,来预测其中某一段的结构。这类似于人们在短文中对一个或几个关键词的理解会受到上下文语境的影响,对于整体文章的理解反过来也会受到一个或几个关键词汇的影响。
但由于技术上的难度,AlQuraishi的新系统在CASP13上的表现并不是特比好,他公开了该系统的研究细节并在Github上公开了源代码,希望未来有更多人参与这个项目,获得更大的进展和突破。
DeepMind方案:基于深度神经网络
AlphaFold在CASP13中变现优异,据悉,它预测蛋白质结构的目标指标比同类参赛的AI系统高出15%。
AlphaFold分两步完成对蛋白质结构的预测。与竞赛中使用其他方法的AI系统一样,它从多序列比对开始。AlphaFold依赖深度神经网络,需要训练深度神经网络从基因序列中预测蛋白质的两种特性:1) 成对的氨基酸之间的距离;2) 连接这些氨基酸的化学键之间的角度。
接着DeepMind训练一个神经网络来预测蛋白质中每对残基之间的距离分布。然后,将这些概率组合成一个分数。他们还训练了一个单独的神经网络,该网络使用汇总了的所有距离分布来评估预测结构与标准结构的接近程度。使用这些评分函数,能够找到与他们的预测相匹配的结构。
(图片来源: 参考资料[2])
DeepMind的第一种方法建立在结构生物学常用的技术上,并用新的蛋白质片段反复替换蛋白质结构的片段。他们训练出了一种生成神经网络来构建新片段,以此来不断提升预测蛋白质结构的准确度。
但是预测的精确距离和角度可能在物理上是不可能的。因此,AlphaFold使用第二步:通过梯度下降法优化得分(这是机器学习中常用的一种数学技术)可以进行小的、增量的改进,从而得到高精度的结构。
(图片来源: 参考资料[2])
参考资料:
[1] AIprotein-folding algorithms solve structures faster than ever, Jul 22 2019,
from https://www.nature.com/articles/d41586-019-01357-6
[2]http://www.sohu.com/a/280762498_505803
来源:global_academia 学术经纬
原文链接:http://mp.weixin.qq.com/s?__biz=MzI5MDQzNjY2OA==&mid=2247493662&idx=4&sn=134fe0a9787f7656eb43b3643f14932b&chksm=ec1d4b4ddb6ac25beacf5fce64193878e9c142ed6cbdbf8480e200018154d29e3b6d64d53289&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn