生成式AI爆火一年半,幻觉问题为何仍未解决

AI百科3周前发布 快创云
12 0

  我们面临预训练数据耗尽的挑战

  我们正处在一个技术迅猛发展的时代。回想18个月前,ChatGPT在人机对话领域展现出了前所未有的能力,令我们惊叹不已。然而,随着时间的推移,我们也逐渐发现,尽管在某些方面取得了显著进步,ChatGPT在其他领域仍存在不足和短板。尽管如此,技术的持续进步每天都在发生。例如,大模型在发展过程中虽然被批评为存在“幻觉”现象,但这也反映出大模型具有强大的想象力和创造力。如何在保持这种创造力的同时减少幻觉现象,是工业界在推广大模型应用时需要面对的挑战。对此,我持相对乐观的态度,这也是我投身于大模型研发的原因之一。我们应当保持乐观,同时谨慎地看待大模型发展中的不足,并寻求合适的方法使其更好地服务于各行各业。

  大模型的发展现状与未来挑战

  目前我们能够接触到的信息,无论是开源的还是闭源的大模型,都包含了大量的数据。以开源模型为例,它们已经训练了大约15T个token,所学习的语料几乎涵盖了互联网上所有公开可获取的知识。至于大模型的表现,需要根据不同领域和场景来评估。在自然语言处理等传统领域,大语言模型已经达到了相当高的水平,但在一些复杂的推理任务上,许多大模型的表现仍未达到人类的期望。这与大模型的训练方式和依赖数据规模的趋势有关。大型语言模型之所以强大,是因为它们能够处理多种模态的数据。随着计算能力的提升和算法的进步,我们终将面临预训练数据耗尽的一天。尽管这看似不可避免,但我们在数据方面仍有新的探索空间。例如,合成数据在特定领域已经证明能够显著提高数据利用效率,并为我们提供了除人类生成数据之外的新数据源。

  生成式AI的推理成本挑战与应用形式单一

  生成式AI在推理成本方面的挑战是业界普遍面临的问题。在日常工作场景中,大模型在某些方面确实能够提高效率,例如处理Excel表格中的重复项。然而,大模型的尺寸和能力几乎是成正比的,这导致在实际应用中为了满足更多人同时使用模型的需求我们不得不在精度和效果上做出妥协。这使得在某些使用场景中,大模型的表现有时可能达不到我们的期望。此外,大模型的应用形式目前还相对单一。我们希望大模型能够帮助我们在日常工作中进行创意生成和写作但有时我们会发现AI的痕迹过于明显。如果我们审视互联网上的整体数据质量显然不如人工精心撰写的文章和报道的质量高。因此如果我们想在人工智能领域继续提升我们必须让人类与人工智能形成一种助手或伴侣的关系而不仅仅是以AI的输出为标准。

  大模型的欺骗性与数据安全挑战

  我仔细研究了发表在《自然》杂志上的一篇文章它与我们每个人的工作以及大模型的未来紧密相关。文章的核心内容并不是说大模型在与我们对话9次后就会变得更差而是探讨了一个有趣的问题:如果我们用大模型自己生成的数据去训练它它的表现会变好还是变差?研究者的一系列研究结果令人有些失望因为并没有如我们预期的那样通过使用大模型自身生成的数据来训练使其学习效果得到提升。这与人类举一反三的能力似乎有所不同。然而我们需要注意的是这项研究在某些方面与我们在大模型研发或实际应用中的做法有所不同。我们是否在大模型的训练过程中仅仅使用它上一轮输出的结果进行下一轮训练?实际上大多数团队目前都在采用一种名为“人类反馈强化学习”的技术来训练模型。这种技术的核心在于人类的标注员会根据大模型的输出给出奖励或惩罚的信号这些信号将决定大模型在下一步训练中应该采用哪些数据。目前的结果表明通过这种方式可以有效避免大模型仅依赖自身数据而陷入退化的过程。但这种技术仍有其局限性例如我们之前提到的事实性或幻觉问题虽然可以通过人类反馈强化学习得到部分改善但并非完全解决。因此在大规模模型中这种自发的涌现现象确实被证实是有可能发生的这使得一些研究者愿意站出来进行独立的模型安全评估和相应的安全体系建设。然而我们必须坦白这一领域的工作还处于非常早期的阶段因为它涉及到将大型神经网络的黑盒模型转变为白盒或灰盒模型并对其进行解释的过程。在这个领域的投资方面可能只有中美两国会严肃对待这一问题因为这不仅关系到技术层面还可能涉及到政府或立法层面的共同努力以帮助整个产业在快速迭代的情况下抑制模型可能存在的风险因素。与此同时我们也看到美国的一些大型企业对这一问题的严肃态度例如OpenAI就聘请了NSA前负责人来负责相关的安全事务。我们也在探索国内关于模型安全的早期研究包括通过模型本体的探查等手段这些技术正逐渐成熟未来将使我们对模型本身的安全性有更深入的理解。

  中国在大模型创新方面的现状与挑战

  中国拥有全球最大的移动互联网市场我们每个人对互联网、移动互联网高质量信息的需求都在不断增长。因此在中国市场中我们发现最早出现的是一些轻量级的应用比如AIGC绘图、具有漫画风格的拍照功能等这些都是非常贴近用户需求的方法。这与美国将AI优先应用于ToB市场服务企业级市场的做法有所不同。这种差异与我们庞大的互联网用户基数和相对完善的基础设施建设密切相关。在良好的基础设施支持下即使是AI游戏也能采用集中式推理模式从而降低每次请求的成本这在一些欧美国家并不那么容易实现。同时我们的智能手机和智能硬件的普及率在全球也是名列前茅这是中国市场的优势但我们也不能忽视自身的短板和长期基础设施建设的需求。国内AI的发展仍然依赖于高端GPU芯片或华为高端NPU芯片等算力基础在这方面中国头部玩家的规模与国外头部玩家相比还存在量级上的差距。至少我们可以看到一些国外玩家拥有超过10万块的GPU加速卡这有助于他们快速进行最新的训练并将训练结果迅速应用于To B的商业闭环中这反映了中美在大模型应用的细节和方向上的差异。我认为中国在大模型创新方面相对较为跟随大模型架构本身是由美国谷歌公司首先发明的包括许多我们现在熟知的大模型训练方法也是基于国外同行的基础。然而尽管存在这些短板国内仍有许多优秀的研究者在努力追赶这两个趋势使我们在大模型的基础研发和算法创新方面能够迎头赶上。在我看来目前我们国家对AI的定位以及对其作为新质生产力的理解已经深入人心早期我们可能认为私人AI如ChatGPT只是一种聊天工具用于闲聊但很快我们意识到它实际上是一种能够在某些方面替代人们进行低层次重复劳动的新质生产力工具。在这种定位下无论是从应用向基础设施建设发展还是从基础设施建设向应用迈进我们都有一个明确的发展方向我们对生成式AI的期待是它不仅要在简单的闲聊或对话场景中发挥作用更要将其新质生产力的能力赋能到各行各业例如阿里希望为用户提供信息获取上的服务和便利但在偏远地区由于上网不便人们对AI的了解非常有限在这种情况下我们如何让他们对国家新质生产力的变革有一个基本的了解呢?阿里做的一个基础尝试是利用AI帮助偏远地区的学生进行高考志愿填报的参考这在我们应用的领域中只是一个非常细分的小领域但它实际上能够帮助学生就像有一个经验丰富的老师一样耐心地与他们进行对话这样我们就消除了信息获取上的一些不公平现象我相信随着越来越多的应用场景的出现基础设施和应用之间的协同效应将越来越强到那时我们在软件供应上的短板和缺陷可能会有机会迎头赶上。

  生成式AI的盈利模式与产业链分析

  关于当前生成式 AI 的盈利模式我们可以将这个问题放在更广阔的视角下审视AI已经形成了一个完整的产业链它不仅仅是AI技术本身如果我们从整个产业的角度来看就会发现产业内部有明确的分工从最基础的层面来看与AI相关的硬件芯片制造商如英伟达、华为等它们仍然保持着良好的盈利状态这种优势是由基础设施的先进性和技术领先性所决定的在硬件之上AI领域最关注的是云计算和云基础设施这一领域的盈利模式已经相对明确主要是通过销售资源型的服务各种模型厂商和应用提供商它们的角色更像是零售商将大量的算力批发给有需求的应用方使用我们也看到国内一些领先的厂商的盈利模式逐渐清晰但目前看来情况并不乐观的是模型层之上的一些业务应用领域大模型本身是一个高投资、高回报且回报周期长的事物以OpenAI这样的行业领头羊为例它们在研发上的投入已经超过五年如果我们回顾早期的GPT系列考虑到它们的历史总研发成本其回报周期是相当长的但我们也应该清楚地看到在这个长回报周期中订阅用户数、API调用量以及每天消耗的GPU算力一直在增长即使现在ChatGPT的订阅用户量已经达到顶峰但对于商业级用户来说对头部模型的需求仍在不断增长再来看整个产业链的上游更像是我们所说的大模型的应用层说实话大模型的应用层现在出现了一些两极分化的情况一方面国民级的AI应用占用了大量的GPU资源但并没有特别明显的商业盈利模式我们目前使用的大多数APP也是免费的并不需要像传统模型那样收取订阅费这恰恰反映了一个现状:许多APP还处于早期应用形态许多厂商还在培养用户习惯并在这个过程中收集真正的用户需求因此从整个产业链来看不同层的厂商或不同层的业务形态它们的盈利模式和周期都是不同的有的厂商可能感到乐观有的可能感到忧虑英伟达的股价近期波动很容易让人联想到市场对这个行业的信心和期待从长期来看尽管短期内有下跌但英伟达过去一年的累计涨幅仍然相当可观市场环境尤其是美国资本市场与投资者情绪密切相关他们对英伟达能否在未来的生成式AI领域保持领先地位并继续获得超额利润持观望态度这种情绪在很大程度上影响了市场对英伟达的看法市场的这种情绪并非没有道理英伟达的芯片因为封装工艺问题导致交付延迟这对资本市场来说是一个不利信号同时英伟达对大客户的依赖性很高其大部分收入来自美国几家进行大模型训练的公司然而在当前美国大力投资基础设施建设的背景下其他公司也对英伟达的市场虎视眈眈没有人愿意忽视这块利润丰厚的蛋糕此外英伟达的一体化销售策略可能会促使大客户考虑建立自己的系统从技术角度来看英伟达是一家非常有耐心的公司自其深度学习计算芯片问世以来英伟达投入了大量资源甚至在研究人员还处于学术阶段时就开始提供帮助和赞助这种长期的投入培养了用户的使用习惯现在正是英伟达收获的时候然而我们也必须注意到技术发展并非总是一帆风顺例如GPT-5的开发已经持续了很长时间但至今仍未发布这对市场情绪和OpenAI继续销售其最先进模型的能力产生了影响这些纯技术因素加上市场的其他消息都是我们未来可以深入探讨的话题从我观察到的趋势来看成本无疑是在不断上升的阶段无论是国内的互联网巨头还是初创公司他们都处于一个充满活力的阶段希望在未来竞争激烈的市场中分得一杯羹在这其中最主要的两个研发相关成本是算力投入和人力研发成本这两个因素可以说是成本上升的主要驱动力这主要是由于这两种资源本身的稀缺性造成的其次大模型研发过程中人才的稀缺程度也是一个不容忽视的问题对于大模型而言训练核心算法、调整策略或进行算法策略的迭代可能是最终算法和应用表现的最重要因素因此掌握相关技术的人才在市场中的价值也在不断上升有传言称一些OpenAI的前研究员的薪资可能达到了数百万美金的规模这实际上并不比相应的训练资源成本低此外我还提到了国内许多产品包括大模型应用都集中在产品侧产品侧的运营推广和流量曝光费用在较大规模上也是相当可观的一笔开支在这些领域由于资源的稀缺性和渠道本身的竞争趋势我们看到的成本或开支趋势一直在上升人类历史上很少对一项技术倾注如此多的情感 AI技术的原理本质上是对世界进行概率性预测简单来说它就是对下一个token——我们可以将token理解为字或词的一部分——进行概率分布和理解AI并没有脱离其作为一个概率模型的本质既然是概率模型它就有正确预测的可能性也有出错的风险因此我们不能完全依赖纯概率模型来期望它准确完成所有任务这是技术本身的局限性为了弥补这种技术限制和错误业界已经提出了许多解决方案许多方案都在尝试预测下一个token但这些模型实际上无法预知未来会发生什么比如人类在说话时大脑会先构思一个框架知道自己要分几点阐述可能会采用总分总的结构但大型语言模型由于限制了自己在推理过程中只能机械地预测下一个token这使得它的概率特性在某些场景中被不断放大因此近期的研究工作希望大型语言模型能够具备一定的预测未来和自我反思的能力例如模型在说完一段话后能够根据自己所说的内容进行额外的确认和修改这可能会提升其能力上限如果我们将视野聚焦于AI技术本身AI行业已经经历了多年的起起落落我们之前也经历过多次所谓的“AI寒冬”每一轮寒冬都是在技术上遇到了难以突破的瓶颈当时人们对这项技术持有很大的悲观情绪或者认为它是不切实际的但我们发现每一轮新的AI浪潮都是在吸取了之前的错误基础上发展出新的范式和方法因此当前的AI热潮和对AI的期待是在前两次寒冬的基础上充分吸取了经验和教训并在范式上尝试创新和修改在这个不断变化的世界中我相信只有通过不断的创新和试错我们才能更接近我们追求的真理以及我们追求的更智能的范式我们 AI 技术未来要发展到什么样的一个程度才能够说我们产生这种收支平衡的一个效益或是说缩短收益的一个效期?这个问题具有很强的技术前瞻性同时也涉及一些务实的技术解决方案据我观察我们至少可以在两个方面解决目前面临的技术问题:一是硬件成本的持续降低二是新硬件架构对我们整体成本下降的贡献在美国有一家独树一帜的公司名为Soho它做出了一个非常大胆的决策将整个公司的资源和信任都投入到大语言模型未来能够成功的道路上它在芯片的底层设计中就融入了对transform结构——也就是大语言模型的核心——的深入理解这种专有硬件的设计可以在现有成本基础上将每个token的推理成本降低10倍到100倍然而由于其通用性受到很大限制它的成功高度依赖于transformer在未来的表现另一方面在算法领域我们也有了惊人的发现现在有效的算法不仅仅只有transform结构一种例如国内团队开发的一个名为Ra的库它是一种自回归的轻量级小模型我们惊讶地发现一些国外大厂比如微软在Windows系统中也开始尝试使用成本较低的CPU资源来进行推理替代从算法和硬件两个方面我们都发现了一些令人期待的亮点但除此之外我们还可以关注到除了纯技术因素之外的其他方面实际上我们的应用正在逐渐成熟应用本身带来的附加价值最终会在某个时点赶上其成本这才是问题的关键我们现在讨论的token不仅仅是在开播时提到的为程序员提供高效编码能力我们更希望这样的模型能够更加贴近实际需求目前的情况是人类在辛苦地进行各种重复性工作而AI却在阅读、绘画和写作这与我们最初的期望是完全不同的在产品和技术领域我们常常不得不面对一个敏感话题那就是产品的投资回报率(ROI)坦白地说目前许多产品的ROI相对较低我们更多的是在用ROI来换取增长在这个过程中我们实际上在关注两件事情:一是ROI的关注点不应仅仅局限于经济利益尤其是在技术早期阶段我们更关注它能否带来巨大的经济价值二是AI技术与其他技术的不同之处在于人类历史上很少有机会对一项技术倾注如此多的情感我们几乎像对待人一样去训练在华语地区对于大模型的训练我们通常称之为“训练”而在港台地区则更倾向于使用“培训”这个词后者更具有人情味我个人对ROI的看法是目前我们使用的这套评价体系判断产品成功与否的标准是基于一个相对较短的时间周期内的价值如果我们将产品的ROI周期延长到18个月甚至36个月我们可以清楚地看到成本下降的趋势是非常明显的这一趋势不仅在国外明显国内也有很多公司在这条道路上快速发展当我们做出投资技术的决策时我们考虑的最重要的点并不总是纯粹的短期物质回报和利益以OpenAI为例它的许多创新点纯粹是出于对技术本身的热爱和对真理探索过程中迸发的机会如果没有像OpenAI这样的公司我们的世界可能会有所不同但有了像ChatGPT这样的技术和一群专注于技术的热爱者他们将对技术的初心发挥到了极致为我们提供了提升AI能力和认知的机会因此ROI是一个指标但对于包括我在内的技术人员来说如果我们有机会去探索我们既要脚踏实地也不要忘记仰望星空因为中华民族是一个想象力非常丰富的民族我们创造了许多异想天开的东西在AI时代我们有机会去实现这些梦想许多人都在讨论AI技术的瓶颈却忽略了技术与人的关系 互联网早期的发展大多数是基于我们现在所理解的结构化数据这种方式成本相对较低且能快速见效所有的数据比如年龄、偏好、习惯等都通过大量的人工或自动化工程以表格和字段的形式存储在数据库中结构化数据之所以成为互联网服务的基础是因为其处理、存储和消费的成本相对较低然而我们所生活的世界实际上是非常非结构化的我们在对话中以及日常生活中的许多习惯很难通过一个字段或一个冷冰冰的数字来表达我们希望借助大型模型充分利用非结构化数据中蕴含的信息和内容目前这些场景可能并不容易被大众直接接触到例如非结构化数据处理和用户习惯总结很难通过传统的大数据方式来实现在这个领域大型模型已经开始在幕后发挥各种作用以我们正在进行的对话为例过去在会议中我们需要专门的记录员来记录会议内容但现在如果我们使用市面上的一些软件AI进行会议记录和总结的精度和成本已经大大降低这相当于为每个人配备了一个会议记录员其成本肯定远低于雇佣一个专业记录员的费用这是一个非常具体且贴近实际的例子我们每个人都拥有了随身的数据助手至于大型模型对整个行业、GDP以及国家经济的推动和贡献未来会如何发展每个人都有自己的推测和想法这也是每个人关注技术的角度和期限不同所导致的风险投资者可能更关注长期趋势而宏观投资者可能更关注技术对产业格局的影响像我们这样的普通技术从业者可能更多地关注技术本身的兴趣点和成长潜力至于对GDP的推动我们可以认为当前AI浪潮与上一波AI浪潮中的部分泡沫有关在上一波AI浪潮中我们积累了可能过量的GPU资源为当前AI浪潮奠定了基础未来这个泡沫是否会破裂或者被更多技术创新所充实将取决于每个行业从业者和用户对我们技术的接受程度这仍然是一个存在较大不确定性和变数的问题我认为技术更多地与人的需求相关而不仅仅是技术本身我们注意到原来的互联网泡沫时期有时过于关注技术本身反而忽视了技术是为人民服务的这一本质在互联网泡沫的早期过分强调了互联网提供的快速便利的能力以及高速带宽等各种未来使用形态看起来过于科幻但实际上互联网泡沫发生的原因之一是那个时代的互联网并没有现在这么多接地气、与人相关的好用应用场景例如在互联网泡沫时期网上购物几乎是不可能的因为我们过分强调了互联网的信息交流能力却没有意识到人们使用互联网的目的是为了服务于人类自身当然这个比喻放到现在对于AI尤其是新一代AI许多人都在讨论AI技术本身的瓶颈和问题但忽略了AI生成式技术与人之间的关系 AI技术究竟以何种形式与我们的社会、人类甚至更广泛地说与我们的国家进行交互我们的研究还非常少因为这不仅涉及技术问题还涉及包括对模型的信任、安全问题等复杂交互形态因此如果我们以史为鉴吸取上一波互联网泡沫中的问题现在最好的行动初衷或方法应该是思考技术和人本身需求的关系以及与社会的交互应该是怎样的形态而不仅仅是建设了一条漂亮的高速公路却没有车辆来往关于这个问题高盛的报告给出了一个相对谨慎的判断:由于大模型的能力限制它们可能替代的主要是一些相对低薪的工作岗位然而我们最近也在思考上一波AI热潮中大模型对人类的替代作用不仅限于简单工作以AlphaGo为例它不仅横空出世还击败了人类最伟大的围棋棋手这在生成式AI领域尚未见到同样惊人的情况但在特定领域我们已经看到了大模型的潜力比如谷歌的DeepMind使用其大型模型在数学竞赛中取得了相当于铜奖的成绩这种情况下我想引用当时人们对AlphaGo的看法:自从AlphaGo战胜了人类顶尖棋手后人与AI的关系已经从单一的对抗转变为一种亦敌亦友的复杂状态在很多情况下人类顶尖棋手实际上需要向AI学习 AI也改变了围棋的整体竞争格局过去许多人学习围棋是依照传统的棋谱和对棋局的理解来进行的但在AI领域是否可以探索一种新的可能性即 AI与我们的关系不仅仅是竞争或替代而是成为一种亦师亦友的伙伴关系在这种关系中 AI能够教给我们一些东西同时我们也能教给 AI一些东西这应该是理想中 AI与人类互动的形态 大模型如要进化到人脑级别需要扩大100倍甚至10000倍 我们观察大模型会觉得它并不像人类但最终目标其实是希望它能够更接近人类这种趋势在全球范围内都有所体现比如美国的公司Anthropic它的名字就体现了人类学的概念为什么会朝着这个方向发展呢?原因在于人类本身在本质上也是一个概率模型这听起来可能有点神学色彩但实际上是有理论依据的我们的大脑思考过程大部分并非量子过程而是可以通过神经元介质的传递来解释的尽管其复杂程度远远超过我们现在最先进的大模型面临的一个未知问题是我们需要多大的大脑容量才能实现这样的智能这个容量可能远远超出我们对大模型的所有想象可能需要将现有的模型规模扩大100倍甚至10000倍才能达到这样的水平因为大模型与小模型最大的区别在于我们不认为小模型具备规划、推理和交互的能力在过去我们使用聊天机器人时并不愿意与它们进行深入交流但是当模型的规模在我们原有认知范围内扩大10000倍时一些新的能力就会涌现出来因此我对这个行业最抱有期待的一点是既然从小模型到大模型可以发生涌现现象那么如果我们将规模进一步扩大并结合其他更先进的技术这将是一个呈指数级增长的过程这种变化可能会带来我们难以预料的突破和创新当前的主流观点认为下一代AI技术的核心将是基于强化学习和自博弈的大模型这种技术体系的主要推动者包括美国的谷歌、DeepMind以及OpenAI等公司我们已经听说过许多相关的计划例如OpenAI的“草莓计划”和“Store very计划”以及DeepMind的“Germany”自博弈技术此外Anthropic等公司也在积极招募前OpenAI的高级研究员共同推进这一领域的研究这些努力本质上代表了技术探索的新方向虽然我们无法确定这些尝试是否能够成功但从AI技术发展的历程来看它们代表了不同AI流派与生成式模型的融合与创新这是一个雄心勃勃的过程因为它涉及到大模型的自我迭代能力这可能会使推理成本增加约100倍这是一个巨大的挑战即使将全球所有的 AI计算资源集中起来也可能难以满足这样的需求说到生成式 AI 的 iPhone 时刻其实很多创新技术在 iPhone 之前就已经存在例如触摸屏技术和智能手机的雏形在 iPhone 问世前就已有相关概念iPhone之所以成为iPhone时刻更多的是因为它在应用领域内集大成将许多有用技术进行了合理整合达到了一个突破的临界点如果将这个比喻应用到大型语言模型上就会发现这些技术之前大部分都不是完全不为人知的我们还

© 版权声明

相关文章