AI “幻觉”指的是大语言模型(LLM)在缺乏真实依据的情况下生成不准确、误导性甚至完全虚构的内容。这种幻觉现象源于模型架构的局限性以及基于概率的生成方式的限制。尽管它们目前无法被完全消除,但理解幻觉产生的原因为有效的缓解提供了基础。本文探讨了 AI 幻觉产生的原因、减少幻觉的技术策略,以及最新的研究进展。
为什么 LLM 的幻觉现象值得关注?
随着人工智能(AI)模型在信息检索和决策中变得越来越重要,对这些技术的信任至关重要。AI 聊天机器人曾制造过一些知名的误导性陈述,为组织带来声誉和信任问题。以下是一些错误案例:
- 错误信息:谷歌的 Bard 曾在一段宣传视频中错误地声称詹姆斯·韦伯太空望远镜拍摄了第一张系外行星的照片,而实际上是欧洲南方天文台的甚大望远镜(Very Large Telescope,缩写为VLT)拍摄的。
- 伦理问题:微软的 AI 聊天机器人生成了不当的内容,例如表达情感并为自己归因动机,导致用户不适,并引发了关于 AI 行为的伦理问题。
- 法律影响:一位律师在使用 ChatGPT 进行法律研究时引用虚构的引文和语录,导致被罚款,造成了声誉受损和浪费司法资源。
为什么 LLM 会产生幻觉?
LLM 的幻觉现象源于三个核心技术挑战:模型架构限制、基于概率的生成方式限制,以及训练数据不足。
-
设计和架构限制:
- Transformer 架构限制:LLM 中基于 Transformer 的注意力机制使模型能够专注于输入中相关的部分。在 Transformer 模型中,固定的注意力窗口限制了模型可以保留的输入上下文长度,当序列过长时,会导致较早的内容被“丢弃”。这一限制常常导致连贯性崩溃,并增加在较长输出中出现幻觉或不相关内容的可能性。
- 序列化 Token 生成:大语言模型以一次生成一个 Token 的方式输出结果。每个 Token 仅依赖于先前生成的 Token,且无法对之前的输出内容进行修改。这种设计限制了实时纠错的能力,导致最初的错误可能进一步升级,最终生成错误的内容。
-
基于概率的生成方式限制:
- 生成式模型的限制:生成式 AI 模型可能会产生看似合理但缺乏对主题真实理解的响应。例如,一家超市的 AI 餐食规划器建议了一种氯气(有毒)的配方,称其为“完美的无酒精饮料”,显示即使训练在有效数据上,AI 也可能在不理解上下文的情况下生成不安全的输出。
- 处理不明确的输入:在面对模糊或不明确的提示时,LLM 会自动尝试“填补空白”,导致推测性和有时不正确的内容响应。
-
训练数据不足:
- 数据准确性的偏差:在训练期间,模型依赖于人类注释者提供的“真实数据”作为预测下一个词的基础。然而,在推理阶段,模型必须依赖自己先前生成的合成数据。这会产生反馈回路,早期过程中的轻微错误会随着时间放大,导致系统在连贯性和准确性上偏离。
- 训练数据覆盖不足:尽管训练在庞大的数据集上,模型通常不会涵盖不太常见或小众的信息。因此,当被测试在这些方面时,模型不可避免地会产生包含幻觉的响应。欠代表的模式或对常见信息的过拟合影响了泛化,尤其是在超出范围的输入上。
如何减轻 AI 幻觉?
虽然 LLM 的幻觉问题不可避免,但可以通过三层防御策略让模型幻觉显著减少:1)输入层:优化查询和上下文;2)设计层:增强模型架构和训练;3)输出层:过滤和验证生成的内容。每一层都是一个关键的检查点,共同提高 AI 输出的可靠性和准确性。让我们对每一层中应用的这些技术做一个更加深入介绍。
-
输入层缓解策略:
- 设计和部署在查询到达模型之前处理查询的层。这些层将评估模糊性、相关性和复杂性,确保查询经过优化以提高模型性能。包括查询处理、上下文大小优化和上下文注入等技术。
-
设计层缓解策略:
- 设计层专注于通过架构改进和更好的训练方法增强模型处理和生成信息的能力。包括思维链提示(Chain-of-thought prompting,CoT)、检索增强生成(Retrieval-Augmented Generation,RAG)和微调等技术。
-
输出层缓解策略:
- 输入层和设计层策略在于防止幻觉的发生,输出层作为最后一道防线,通过过滤和验证生成的内容。包括通过算法过滤、输出重新排序、事实核查和验证以及鼓励上下文意识等技术。
未来展望
当前推进 AI 可靠性的研究主要集中在以下几个方面:围绕这些缓解技术进行创新、更好地理解 LLM(大语言模型)的内部工作原理,以及可能导致新的 AI 模型架构,使其能够“理解”所训练的数据。包括编码的真相、检测方法和自我改进等研究方向。
随着该领域的不断发展,这些策略可能在开发既准确又具有上下文感知能力的 AI 系统中发挥核心作用,推进大语言模型在各个领域的实际应用。希望这些技术干货能帮助您更好地理解和应用 AI 技术。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com