在生命健康领域,人工智能(AI)模型正逐渐发挥其巨大的潜力。这些模型不仅能够协助医生进行影像报告解读和病情分析,还能帮助科研人员总结海量论文、预测疾病机制并加速药物研发。随着Deepseek等高性能开源大模型的推出,健康行业迎来了新的发展机遇,使得从业者能够以更低的成本开发出更优质的商业产品。
在生命健康领域,AI的应用及其带来的机遇与挑战成为了业界关注的焦点。2月21日,在上海全球开发者先锋大会的“开源语言大模型与AI for Science在生命健康领域的介绍与应用”工作坊中,多位AI专家和产品开发者就这些问题进行了深入探讨。
大模型:从通用到专业
为何“能聊天”的大模型也能应用于生命科学研究与医学诊疗的各个环节?工作坊中,几位演讲者详细介绍了AI大模型的原理。其核心在于通过学习大量真实数据,理解数据的概率分布,从而做出接近现实的预测。
“如果要在‘我’和‘你’之间填空,应该如何选择?在武侠小说中可能更多选择‘打’,而在爱情小说中则可能是‘爱’。语言大模型能够预测在不同语境中,哪个字出现的可能性最高。”上海达威科技创始人朱代辉解释道。
目前广泛应用的大模型,如Transformer架构,将输入的文本转化为数学向量的形式,通过向量距离来度量词与词的关联概率。模型会计算这些向量之间的“注意力权重”,确定哪些词对当前词更重要,这就是“自注意力”算法机制。
“这种机制允许模型在处理序列数据时,同时考虑所有位置的信息,动态决定哪些信息更重要。”朱代辉说。为了让模型在不同的上下文中捕捉不同的信息,Transformer模型会将注意力权重维度分成多组同时计算,每组关注不同的部分,最后的结果会合并。这种“多头注意力”机制有助于模型从多个角度理解句子。
这些注意力权重随后会输入“前馈神经网络”中进行计算。这种由多层对应数据特征的节点构成的模型,能够帮助对数据进行“深度学习”,发现其中更复杂的模式。
这些模块层层堆叠,产生大量参数来描述数据。通过调整,这些模型不仅能够学习语言,还能学习图像、音频乃至DNA序列、蛋白质结构等不同模态的数据,并进行统一表示。当参数和数据量达到一定规模时,模型会涌现出分类、预测、生成的能力。
要达到这种效果需要巨大的数据和算力成本。专注于应用的开发者可以选择在这些已经具备一定认知能力的通用大模型基础上进行微调,开发适用于特定任务的专业大模型。
人工智能在生命健康领域的应用
联合利华数据AI总监、计算生物学博士杨荟介绍了Biobert、SCGPT、Evo等多款生命科学和医学领域的大模型,这些模型可用于基因、蛋白质等多组学信息的整合、药物靶点发现与分子设计、医学图像分析等场景。
大模型已经成为辅助生命科学和医学研究的得力助手。杨荟提到一个例子:他看到家里的塑料袋被虫子分泌的物质腐蚀后,通过Chatgpt的Deep research功能询问是否有昆虫分泌蛋白质降解塑料的研究。AI最终找到了西班牙的一项研究,发现一种飞蛾幼虫能分泌两种能够降解塑料的蛋白质。
随后,杨荟通过AI提供的资料找到了这两种蛋白质在数据库中的信息。“其中一种已经被解析,而且可以看到实际结果与蛋白质结构预测AI给出的结果非常接近。”他说道。
此外,一款名为“txyz”的AI产品在医学和生物领域也非常受欢迎。这款基于Chatgpt开发的平台能够帮助用户快速查找和精读论文,或根据论文形成准确的综合性回答,帮助科研人员迅速获取知识。
AI大模型快速“理解”文献的能力还可以用于从海量论文中提取关于生命和疾病规律的关键结论,如药物作用的靶点、疾病机制等。这些信息与其他实验数据相结合,可以建立能够预测生命和疾病活动的模型,被称为生命的“数字孪生”。
挑战与风险
尽管AI大模型在各个领域迅速落地应用,但仍存在不少风险与挑战需要开发者和政策标准制定者共同面对和克服。西湖大学博士研究生燕阳指出,AI辅助诊断存在诸多风险:“如果询问大模型孕妇能用什么药,它会提示四环素可以使用,但实际上这种药是禁用的。”他解释道,在大语言模型中,数据训练的本质是尽可能接近训练数据。如果数据不完整、不准确或质量低劣,回答的质量也会受到影响。如果前面出现错误,会导致后续生成中错误的累积,导致答案失真。
因此追求更高质量的数据成为AI产品开发者共同关注的主题。燕阳认为对生命健康领域数据的认识存在误区导致产品开发陷入瓶颈甚至产生风险。“有人认为有海量数据就能训练好模型数据越多模型性能越好这是不对的。”他说医院数据往往是非标准化的如医嘱、不同设备产生的检测结果等难以直接用来训练AI模型有些数据缺乏标注这些可能会导致模型学习到的概率分布偏离真实的医学推理逻辑。
由于缺乏更完整的医学数据一些医学AI研究可能会尝试数据“蒸馏”的方法用ChatGPT等大模型生成数据然后用这些数据来训练自己参数相对较少的模型这样做的好处是能让小模型逼近大模型的能力但坏处是大模型的输出本身可能存在问题。“由于通用的大模型往往缺少医学知识可能导致对罕见病等疾病的忽略小模型将这些倾向作为‘事实’进行学习可能会变得‘过度自信’且容易犯错。”燕阳说。他认为这些问题可以通过让数据变得更加完整和专业来解决比如增加专家标注和更多医学知识让AI学会“是什么”和“为什么”还可以通过展示推理轨迹(CoT)等算法来完善AI的推理过程把自相矛盾或者错误的逻辑剔除出去。国内首个AI安全研究员美国生命未来研究所的朱小虎告诉澎湃科技在风险评估中大语言模型已经展现出了欺骗、避免自身毁灭、传播对人有害的信息等问题。“基于专业知识的医学模型相对会好很多但如果这些模型是以通用大模型为基座训练的话底层的倾向也可能会传递到模型中。”他说。据悉2025全球开发者先锋大会于2月21日至2月23日在上海举办主题为“模塑全球无限可能”旨在促进产业集群的培育推动基础大模型与算力、语料、垂类应用场景等人工智能企业深度融合打造以开发者为中心的开发者节。