AI工程的极致:AlphaFold

AI百科3个月前发布 快创云
47 0

  蛋白质作为细胞的生命基础,其功能的实现依赖于特定的三级结构。新生氨基酸链从核糖体脱落后,迅速折叠成特定的三级结构,这一过程由相邻氨基酸中原子的相互作用决定,直至达到稳定状态,从物理化学角度看,这一结构的熵值应接近最低。因此,掌握蛋白质结构(即蛋白质折叠问题)至关重要。例如,在新药研发中,通过影响特定蛋白质的功能,可以开发出有效的治疗药物。

  为了揭示蛋白质的三级结构,生物学家通常使用X射线衍射、核磁共振光谱和冷冻电子显微镜等技术。然而,这些技术复杂且耗时漫长。例如,Max Ferdinand Perutz和他的团队花了23年时间才确定血红蛋白的三级结构,这一成就使他荣获诺贝尔化学奖。一些科学家甚至毕生致力于确定人类20,000种蛋白质中的某一种结构。

  1961年,生物化学家Christian Anfinsen提出了一种更简单的方法。他发现蛋白质的折叠并非毫无规律,理论上任何线性氨基酸链的三级结构应该是可预测的。在1972年的诺贝尔化学奖获奖感言中,Anfinsen展望了这样一个愿景:有一天,仅根据氨基酸序列就能预测任何蛋白质的3D结构。

  到了1970年,科学家发明了核酸测序技术,在基因组计划的推动下,自动快速测序技术应运而生,并揭示了人类、动物和植物的完整基因组(记录蛋白质)的编码基因。从那时起,化学家开始开发软件,在计算机上模拟蛋白质的结构。这一多尺度复杂化学系统建模工作在2013年获得了诺贝尔化学奖。

  从1994年开始,生物界举办了代号CASP(Critical Assessment of Protein Structure Prediction)的蛋白质结构预测大赛。参赛者被分配到约100个未知蛋白的氨基酸序列,这些蛋白质的三级结构已知但从未公布过。参赛团队有几个月的时间研发数学模型以预测这些未知结构。CASP的计分体系为0到100分;超过90分意味着结构预测接近完美。

  在前面的12次比赛中,虽然预测蛋白质的模型有所改善,但除了最小和最简单的蛋白质外,模型的精确度非常低,得分均未超过40分。这些软件都是基于物理化学规则实现的,20多年来参赛者的模型表现一直不佳。

  然而,在2018年DeepMind参加的CASP13比赛中,情况发生了显著变化。其软件AlphaFold融合了化学家、物理学家和生物学家对蛋白质的物理化学知识,并采用了深度学习技术。在CASP13中,AlphaFold取得了明显进展,得分超过60分,但仍未达到理想状态。

  到了2020年,DeepMind扩展了AlphaFold的使用范围,采用了AI深度学习的方式。AlphaFold2在2020年底的CASP14大赛中表现出色,预测模型的得分中位数达到92.5分,远超其他参赛者。2021年7月,DeepMind公开了AlphaFold2模型论文《Highly accurate protein structure prediction with AlphaFold》以及详细解释模型的50页附件。

  尽管AlphaFold2预测精确,人们更关心它在CASP14之外能揭示多少当前未知的蛋白质三级结构。大量的蛋白质线性氨基酸序列是已知的,但人们对其三级结构的了解却很少。据调查,截至2021年1月,经过数千名科学家的工作,仅确定了人类20,000种蛋白质中约30%的结构以及非人类2.8亿种蛋白质中仅0.01%的结构。

  AlphaFold2是否能迅速将已知的核苷酸和氨基酸序列转换为更多蛋白质的三级结构?2021年7月22日,DeepMind给出了答案。在公司官网上,它提供了全部人类20,000种蛋白质中98%的预测结构以及生物医学研究中使用的20种生物模型(包括小鼠、果蝇、酵母和大肠杆菌)的365,000个蛋白的预测结构。到2021年底,DeepMind公布了地球上约2.8亿个蛋白质中约50%的预测结构。而在此之前(2021年7月1日前),人类只知道了其中0.01%的结构。

  回顾CASP的历史成绩可以发现,基于深度学习的蛋白质预测模型在CASP13中大幅超越了之前普遍使用的物理化学方法。全球生物信息研究者通过2018年CASP13所展示的算法表现清楚地认识到:基于深度学习的同源模型化方法是提高蛋白质预测性能的唯一方向。目前的问题仅在于如何设计深度学习模型。

  AI技术领域里不存在只有某个公司知道而其他公司都不知道的所谓“黑科技”。模型技术都是公开的知识。那么为什么只有AlphaFold2的性能如此出色?这体现了DeepMind在AI工程能力上的极致水平:首先其模型架构虽不复杂但工程落地难度极大;其次其优化设计令人惊叹;最后它展示了业界高水平的大型AI工程团队组织能力。这些因素共同促成了AlphaFold2的成功。尽管AlphaFold2仍有局限且需要向更远大的目标迈进但当前的AlphaFold2已经与绝大多数生物信息AI团队形成了代际的能力差距。这种系统的出现给AI工业界引入了一种工程化门槛在此门槛之上的AI系统即使论文公开代码开源也绝大多数团队无法复现其性能。

© 版权声明

相关文章