人工智能(AI)在生物技术,特别是药物研发领域的应用已经持续了十多年,不论成功与否。在基础模型(foundation model)纪元,我们或许已经经历了一场重大变革。
多年前,Recursion公司致力于利用AI进行药物研发,通过识别细胞显微图像中的遗传疾病表型,筛选出可以使细胞“看起来更健康”的药物,以期其有效缓解疾病症状。大约在2016年,Recursion开始转向新兴的“深度学习”范式,采用更大规模的神经网络取代传统的基于特征工程的机器学习。
如今,情况已发生变化。更大规模且功能更强大的模型已被广泛应用于生物技术领域,正逐渐改变着药物及生物制剂开发的最新格局。是时候认真审视现有技术的能力和局限性了。
对生物技术领域不熟悉的AI乐观主义者,很容易对AI工具能起到的最大作用有所误解。AI无法直接“设计一种药物”立即应用于患者,制药公司需要进行大量的动物和人体试验。在美国,一款获批药物的平均研发经费高达8.793亿美元(包括失败药物的成本),其中近90%用于临床试验上。在生物技术中,AI主要应用在占研发经费10%的药物发现和临床前研究环节中,以推进自动化并优化特定问题。虽然并不简单,但如果AI能够辅助开发出前所未有的新类型药物,其意义重大。然而,这也引发了有关AI的炒作。
一个AI模型对药物发现的贡献,仅限制于:如果模型给出的建议只是你本来会做的事,它的价值不大;如果它能替代手动完成的任务,它有一定的价值;如果它提高了研发出成功疗法的概率,它极具价值;而如果它推动了新的成功疗法,那将是颠覆性的。
在理解了这个框架后,就可以深入研究一些具体细节。下文概述了部分大型的、有影响力的热门模型,并对其用途做了简单总结。
目录
类型一:结构预测模型
- AlphaFold2
- ESM3
- Evo
类型二:蛋白质和肽结合模型
- RFDiffusion
- RESP AI
类型三:分子结合模型
- AlphaFold3
- BioSimDock
- MoLFormerXL
- BELKA(Big Encoded Library for Chemical Assessment)
类型四:细胞模型
- CZI的虚拟细胞
- Phenom-Beta
- VISTA-2D
类型五:靶点发现模型
- PandaOmics
类型一:结构预测模型
结构预测模型是一类在生物技术应用中广泛使用的AI模型,致力于解决计算生物学中最经典且复杂的问题之一:“一个给定的序列(如RNA、DNA或蛋白质)如何折叠成三维结构?”从制药的角度来看,我们关心这个问题,因为大多数药物通过与蛋白质(有时是DNA/RNA等核酸)发生化学相互作用而起效,并且相互作用取决于所讨论的生物大分子的结构。此外,一些药物本身就是生物大分子(蛋白质、肽、核酸序列等),了解它们的结构对于预测它们在体内的作用非常重要。目前,大多数人类蛋白质的结构仍未通过实验确定,新的折叠RNA类型及其独特的细胞功能也还在不断发现中。
AlphaFold2
产品介绍:AlphaFold2是由DeepMind于2022年发布的蛋白质结构模型,给定一段蛋白质的氨基酸序列,该模型可以预测其结构。(这是一个免费平台,可用于非商业研究。)该模型经过数十万个已知蛋白质序列和结构的训练,计划预测43.8%人类蛋白质序列中超过四分之三的结构。AlphaFold2不是第一个蛋白质结构预测模型,但在最近的蛋白质结构预测竞赛(CASP14)中,它的准确率远超其他任何竞争对手。实际用途:通过蛋白质结构预测,了解蛋白质的构型,可以帮助我们了解其工作原理。可用于合理化药物设计。只要知晓一种蛋白质的结构,就可以开始研究哪些类型的分子可与其相互作用并改变其功能。但它的预测结果真的足以代替实验确定的蛋白质结构吗?这很难说。一方面,如果以模型预测的结构为起点,使用配体结合计算模型来预测哪些药物会与它们结合,“每个受体的许多已知配体都未显示命中”。换句话说,筛选“针对”模型预测的结构而非实验确定的结构,会产生大量假阴性。另一方面,无论所用的蛋白质结构是“真实”实验得出的还是AF2预测的,在实验中与靶标配体实际结合的概率,计算下来约为50%。换句话说,如果你根本没有确定实验结构,那么使用人工智能的猜测将获得同样多的初始匹配,这可能有助于开发针对难以确定结构的蛋白质的药物。ESM3产品介绍:ESM3是由一家新成立的前沿人工智能公司Evolutionary Scale创建的大型(98B 参数)语言模型,该模型基于来自27.8亿种天然蛋白质的蛋白质序列、结构和功能数据进行训练。输入一段给定的序列,它可以输出预测的蛋白质结构;输入一个结构,它可以预测匹配的序列。(于2024年6月25日正式发布,第一个兼具预测蛋白质序列、结构和功能的生物学生成模型。)该团队在论文中演示了ESM3“创造”绿色荧光蛋白(GFP)新变体的过程:研究人员输入一些要求后,让ESM3填补蛋白质的其余部分,最终产生了一些与天然GFP序列完全不同但仍能产生荧光效应的新变体。(而在自然进化过程中,蛋白质变体可能需要超过5亿年才能进化出来。)实际用途:想要“定制”蛋白质以产生某种特定效果,且已确切了解实现该效果所需的结构层面特性,ESM3可以辅助提出一些想法(仍需要实验测试)。ESM3也能通过功能预测蛋白质结构(不过其准确性尚未与其他前沿方法进行比较)。通过使用ESM对抗体进行“突变”,使AI优化的抗体在性能上显著优于目前临床批准使用的人类抗体,使抗体更“正常”(相对于训练数据)以更好地发挥作用。抗体是最常用的蛋白质类药物类型之一,这具有重要的实际应用意义。不过,ESM3通常并不能解决“我需要一个在特定波长下发光的蛋白质”或“我需要一个针对某个特定蛋白质的抗体”这类问题。在生成“按要求定制”的蛋白质时,必须对“要求”有足够的了解,模型才会尝试给出答案。Evo产品介绍:Arc Institute开发的Evo是一种能够理解生物学三大基本语言(DNA、RNA、蛋白质)的长上下文生物基础模型。规模略小于ESM3(7B参数),基于80,000 种细菌和古细菌的基因组训练得到。它能够在给到提示后“自动补全”DNA、RNA和蛋白质序列的剩余部分。(可以通过Github获取。)实际用途:显然,越有可能由模型自动生成的序列,其在许多方面的表现就越“优越”——例如携带“更可能”突变的E. coli细菌的生存能力更强,“更可能”突变的非编码RNA在各类“适应性”评分中表现更好等等。实际应用中Evo可用于了解一个序列的正常程度或生物学合理性。想要“正常”序列总体上能更好地工作Evo也可以成为合成生物学的一个筛选步骤同样它不能取代物理实验但可以加快成功进程例如基因编辑创建新的CRISPR变体时。 类型二:蛋白质和肽结合模型RFDiffusion产品介绍:RFDiffusion由华盛顿大学David Baker实验室开发是一种基于此前RoseTTAFold结构预测模型建立的蛋白质生成模型(免费且开源)。该模型在蛋白质数据库上进行训练允许用户围绕特定的功能区域(如小分子结合位点或酶活性位点)生成蛋白质例如当模型被要求生成能结合镍离子的候选蛋白质时模型生成的44种蛋白质中有37种(84%)在物理实验中确实成功结合了镍离子实际用途:设计定制蛋白质的能力很有价值定制设计的酶可以催化工业过程或分解环境毒素为特定靶点设计的抗体可以成为药物、诊断生物传感器或者用于基础研究的标记工具例如RFDiffusion已用于生成与某些肽结合的蛋白质RESP AI产品介绍:RESP由加州大学圣地亚哥分校的研究人员开发是一种针对抗体的特异性模型经过超过30亿个B细胞受体序列的训练能够为一种明星抗癌抗体药物(Atezolizumab或抗PD-1)提出改进建议使新抗体与靶标的结合力提高17倍(该模型仅发表论文)实际用途:最传统的抗体制造方法是将抗原注射到动物体内然后收集该动物免疫系统产生的抗体这种方法效率低、成本高更现代的抗体发现方法使用高通量筛选测试大量候选变体确定其与靶标结合的效力和特异性RESP系统并未完全摆脱实验筛选但它确实使筛选更加高效与盲目试错不同RESP提供经过预测具有高表现潜力的建议进而筛选这些候选抗体这有可能缩短成功抗体的发现时间提高发现概率或者优化候选抗体使其在进入临床试验时更加有效并减少潜在的副作用 类型三:分子结合模型预测分子之间化学相互作用强度是药物研发的关键理想情况下小分子药物能与其靶标(通常是蛋白质)紧密结合但又不会干扰体内其他分子的功能用于预测分子相互作用的计算方法并不是从AI或机器学习开始的几十年来药物化学家一直使用基于电化学相互作用的确定性模型来预测结合亲和力然而这些模型的准确性并不高因此药物设计仍然在很大程度上依赖于实验和领域知识制药公司押注人工智能方法会发挥更好的作用例如默克公司已经发布了基于人工智能的药物研发软件AIDDISON该软件在其专有实验数据上进行训练AlphaFold3产品介绍:AlphaFold3于2024年5月8日发布相比AlphaFold2具有更广泛的应用能够从DNA、RNA和蛋白质的序列中预测其3D结构它能够预测蛋白质和核酸如何结合形成复合物甚至预测蛋白质和小分子之间的配体结合它在预测蛋白质-配体和蛋白质-蛋白质相互作用方面的准确率高达近 80%远远优于竞争对手的模型(免费平台可用于非商业研究。)实际用途:AlphaFold3可以完成AlphaFold2的所有功能此外还可以帮助筛选潜在药物、抗体和其他生物制剂以评估其对靶标的作用它还不够准确无法完全取代实验但它可以加速寻找早期成功药物的过程通过筛选来决定哪些候选药物需要进行实验测试BioSimDock产品介绍:BioSimDock由Deep Origin公司开发是一种预测小分子与蛋白质结合亲和力的专有模型该公司没有透露太多有关其架构的信息(可在官网申请使用测试版)但BioSimDock被观察到能够在10万个分子库中正确检测到13个“真实”结合分子中的6个预测的结合亲和力与实际值的相关性达到了0.89远远优于其他基于计算的配体结合预测模型实际用途:虚拟分子筛选大大扩展了小分子药物候选物的范围当下最大的实体筛选库包含大约一百万个分子而基于AI的模拟筛选可以在几天内筛选超过百亿个分子先筛选出计算得分高的分子再进行实验测试可以将命中率提高数倍MoLFormerXL产品介绍:MoLFormerXL由IBM研究院开发经过超过十亿个分子的训练可根据分子结构预测各种化学特性包括毒性、水溶性和对某些靶标的结合亲和力它是一个预先训练的化学语言模型就像通用语言模型可以处理多种语言任务但如果想在特定任务上表现得更好(如文本分类)需要进一步微调同样MoLFormerXL在执行化学任务时也需要针对不同的化学属性进行调整和优化。(该模型在平台注册后即可使用。)实际用途:从论文中无法确定MoLFormerXL的结合亲和力预测与其他分子结合模拟(包括更确定性、非机器学习的预测)相比如何一般来说来自非常大数据集的良好通用嵌入通常可以改进各种专用预测模型但如果没有更多信息很难说能改进多少MoLFormerXL的主要应用像其他计算机模拟筛选模型一样提供一个初步的分子库提供预测为"优质"的分子供实验进一步验证和筛选BELKA产品介绍:在最近一次针对大型数据集BELKA(Big Encoded Library for Chemical Assessment)的Kaggle竞赛中任务是预测哪些小分子能够与哪些蛋白质结合没有任何参赛者能够从基于一个核心分子结构的训练集成功推断出不同化学结构的测试集结果即使是竞赛获胜者在处理新结构时的表现也不过与随机猜测相当实际用途:虽然负面结果令人失望但它们依然具有重要价值如果现有的AI模型无法准确预测小分子与靶点的结合这意味着我们需要更大、更好的数据集包含更多样化的分子才能有希望预测任何小分子药物候选物的行为小分子结合最终可能比蛋白质-蛋白质或蛋白质-核酸结合更难虽然生物大分子都来自地球上同一组生命的祖先但所有可能的化学物质的组合要多样化得多 类型四:细胞模型CZI的虚拟细胞产品介绍:Chan Zuckerberg Initiative(CZI)正在开发一种被称为“虚拟细胞”的项目[19]虽然他们尚未发布相关论文但其方法似乎是基于显微镜细胞成像以及单细胞RNA、DNA和蛋白质数据构建一个基础模型实际用途:推测而言细胞数据的基础模型将能够做到以下几点由于癌症是一种“细胞类型”因此该模型也适用于癌症分类Phenom-Beta产品介绍:Phenom-Beta是Recursion的细胞显微镜图像生成模型它是一种视觉转换器经过训练可以从不完整的图像块中“自动完成”图像它提供了细胞图像的自然嵌入使得嵌入中“相似”的细胞在沿生物学相关途径的基因表达方面也相似。(目前该模型可通过API获得并将通过BioNeMo Beta申请。)实际用途:细胞图像的良好嵌入是表型筛选的重要工具表型筛选的基本思路是筛选那些影响疾病状态的药物比寻找与单一靶标相互作用的药物更有效然而由于无法在数以百万的患病小鼠上进行数百万种化合物的测试研究人员通常依赖基于细胞培养的实验模型来代表疾病状态最传统的表型筛选方法是癌症研究领域可以跳过寻找与假设与癌症有关的单个靶分子相互作用的药物环节同时测试大量药物观察它们是否能够杀死或抑制癌细胞的生长且不会伤害健康细胞而一种更细微的表型筛选方法则是通过识别病变细胞与健康细胞的差异并筛选能够使病变细胞看起来更像健康细胞的药物要实现这一目标需要一种对“相似性”进行计算的定义简单的像素值比较并不足够图像中大部分信息是冗余的因此需要一种能够压缩和提取重要信息的方式基于Transformer的嵌入技术非常擅长找出直观上相似的图像因此可用于识别相似的细胞这对干细胞和发育生物学也可能非常有用如果希望诱导干细胞分化为“更像”某种目标细胞类型基于图像的相似性测量可以告诉你是否走在正确的轨道上VISTA-2D产品介绍:NVIDIA于2024年4月22日发布的基础模型VISTA-2D解决了生物学中一个出乎意料的难题——细胞分割即在显微镜图像中自动绘制每个细胞的边界虽然人眼很容易看出细胞的位置但让图像处理系统准确地计算样本中的细胞数量且在准确性和成本上与手动计数相竞争仍然极为困难如今最先进的分割模型在基准数据集上的准确率可以超过90%而且大多数分割模型都通过结合像VISTA-2D这样的预训练基础模型略有提升。(在NVIDIA官网可申请访问早期模型。)实际用途:如果要对大量细胞显微图像进行自动分析例如表型筛选或脑图谱绘制那么首要任务就是对细胞进行分割 类型五:靶点发现模型“靶点发现”是药物发现的第一阶段也是最接近基础研究的阶段靶点发现即确定一种疾病的良好药物靶点例如了解靶向GLP-1受体的药物可对糖尿病产生影响一般需要长年的实验才能建立对疾病有足够的了解从而确定一个可靠的靶点研究一个特定的靶点或分子途径上可能会耗尽研究者的整个职业生涯因此虽然AI模型自动完成所有这些工作的想法有点荒谬但值得尝试PandaOmics产品介绍:PandaOmics 平台由 Insilico Medicine 开发计划从“组学”数据以及数据库、出版物等中的文本信息中推断出靶点。(该模型公开平台注册即可使用。)测试这样一个高度灵活的平台的性能是非常困难的Insilico Medicine在一篇验证PandaOmics在ALS(肌萎缩侧索硬化症)研究中的有效性的论文中提到PandaOmics结合了20多个AI和生物信息学模型根据靶标-疾病关联、可药性、发育状态和组织特异性等信息对靶标进行排名通过自定义不同的筛选设置共选出了17个高置信度和11个新候选基因(总计28个)作为ALS潜在治疗靶点这为潜在的“选择性偏好”敲响了警钟28个候选基因中9个基因在ALS果蝇模型中敲除后显示出“强效救治”效果且所有这些基因都曾在已发表的ALS荟萃分析中得以确认这些结果可能不是新发现而是基于已知的信息进行的验证缺乏真正的创新性实际用途:使用软件平台整合已发布的信息和“组学”数据根据公正的算法标准对疾病目标进行排序这种做法似乎很有用然而InSilico并没有尝试证明他们的软件优于显而易见的比较点即由领域专家手动挑选靶点显而易见的是由于依赖于他人的实验报告它并不能取代这些实验如果使用大型语言模型(LLM)来分析科研文献虽然能加快你对这些文献的理解但最终还是需要有人亲自进行这些实验总结在生物技术领域AI被大肆炒作质疑之声虽更为低调但仍然存在问题的一部分在于AI的应用有时很容易被过度夸大甚至没有取得什么显著的成果就宣称胜利只要在药物开发过程中某一环节使用了AI即便在没有AI的情况下也能取得类似的结果就可以声称是“AI发现的药物”通过仔细调整训练和测试数据甚至可以声称AI模型“成功预测”了一些事一些在生物学中研究充分的问题例如蛋白质结构预测有着严格的基准测试比赛因此开发出一个获胜的模型是一项实质性的成就我们知道AlphaFold确实“表现优异”因为它在公开的基准测试中击败了多年来用于蛋白质结构预测的其他模型然而常见的宣扬AI的生物应用的论文(更不用说新闻稿)并没有达到这个标准尽管如此很明显在某些情况下大型生成式AI模型的预测能力确实优于随机猜测以及早有的计算模型其重要性何在•自动化劳动:药物发现/开发的AI模型将自动化许多繁琐的手动流程•模拟实验:我们很难相信“AI预测的结果足够可靠甚至不需要通过物理实验来检验”•实验优先排序:这是一个关键的问题如果AI模型能够有效地按质量排序候选药物这是否会比传统筛选方法更快获得成功?这一点在蛋白质(包括抗体)研究中有其可行性一位阿斯利康的药物发现研究人员估计若能将药物开发初期的成本降低20%每种药物的节省可达到约1亿美元——尽管与提高临床成功率的影响相比这只是个小数目但仍足以让AI药物发现工具变得非常有价值•创造新类型药物成为可能:这是最有价值的应用但到目前为止我们还没有看到AI方法在开发新药类别或解决“不可成药”靶点方面的强有力案例不过已有了一些早期的积极迹象例如一个图形网络模型识别出了此前未发现药物结合位点的蛋白质“隐秘口袋”。最终的相关性检验仍是能否发现新的成功药物类别或靶点一些对AI在生物技术领域的能力抱有不切实际期望的人似乎认为一款计算机程序能够设计出药物分子患者马上就能开始服用实际上没有内行人会试图跳过动物实验或人体临床试验因为未知因素实在太多靠计算机模拟来预测药物在生物体内的效果是不切实际的不过在生物技术中AI着实取得了一些进展尤其是在预测蛋白质结构和蛋白质-蛋白质相互作用方面像AlphaFold这样的工具现在被广泛应用并且短期内不会消失预测小分子结合目前还不那么可靠但如果我们开始生成更好的实验数据集这一领域也并非根本无法取得突破至于靶点发现、毒性预测以及预测药物对生物体健康影响的其他应用基础还很不稳固生物体远比溶液中的分子复杂实验成本也高得多对于那些声称能够通过AI普遍解决这些问题的人我仍然持怀疑态度尽管可能在某些特定的子问题上更具可行性尝试用AI模拟细胞及其健康状况规模介于分子与整个生物体之间虽然还处于起步阶段但我认为这是一个值得关注的领域尽管它与药物开发的直接关系不如分子结构模型那么密切总的来说尽管AI炒作不断但这个领域的前景仍然值得期待考虑到药物开发的速度现有工具的全面临床影响还需要几年时间才能显现更不用说未来的创新了