OpenAI 新 AI 逼近人类智力!一文读懂最新突破与技术原理

AI百科22小时前更新 快创云
4 0

  OpenAI最新的o3系统在ARC-AGI-1公共训练集上经过训练后,在公共排行榜规定的10,000美元算力限制内,于半私有评估集上实现了75.7%的突破性成绩。而在高算力配置(172倍)下,o3更是达到了87.5%的惊人成绩。

  o系列的表现

  这标志着AI能力的一次重大飞跃,展现了GPT系列模型前所未有的任务适应能力。回顾过去,从2020年GPT-3的0%到2024年GPT-4o的5%,ARC-AGI-1测试用了整整4年时间。o3的出现将彻底改变我们对AI能力的认知。

  ARC Prize的目标不仅仅是设立一个基准,它的使命是为通用人工智能指明方向。我们期待能在明年与OpenAI团队及其他机构合作,继续设计新一代的持久性AGI基准测试。

  ARC-AGI-2将保持相同格式——对人类来说容易验证,但对AI来说更具挑战性——将与2025年的ARC Prize同步推出。

  让我们详细了解测试报告的内容。

  OpenAI o3在ARC-AGI测试中的表现

  我们通过两组ARC-AGI数据集对o3进行了测试:

  半私有评估:包含100个私有任务,用于评估是否存在过拟合。
公共评估:包含400个公共任务。

  在OpenAI的指导下,我们采用了两种计算资源配置进行测试,分别使用不同的样本量:6(高效模式)和1024(低效模式,使用172倍的计算资源)。

  测试结果如下:

  半私有评估(100个任务):
高效模式:准确率75.7%,成本2,012美元,每任务处理3300万个标记,单任务成本20美元,用时1.3分钟,样本大小6。
低效模式:准确率87.5%,处理57亿个标记,每任务用时13.8分钟(具体成本未知),样本大小:1024。

  公共评估(400个任务):
高效模式:准确率82.8%,成本6,677美元,每任务处理1.11亿个标记,单任务成本17美元。
低效模式:准确率91.5%,处理95亿个标记(具体成本和用时未知)。

  关于模型调优:OpenAI透露他们使用了公共训练集的75%来训练我们测试的o3版本,但未提供更多细节。我们还没有测试未经ARC训练的原始模型,因此无法确定多少性能提升来自ARC-AGI数据的训练。

  考虑到推理预算的可变性,效率(如计算成本)现已成为性能报告中的必要指标。我们记录了总成本和单任务成本作为初步的效率指标。虽然业界还需要确定最合适的效率衡量标准,但从趋势来看,成本是一个不错的起点。

  在ARC-AGI-Pub规定的10,000美元预算限制内,o3达到的75.7%的高效成绩足以问鼎公共排行榜榜首!虽然87.5%的低效模式成本较高,但它证明了增加计算资源确实能提升模型在新任务上的表现(至少在目前测试的范围内)。虽然每个任务的成本不菲,但这样的成绩并非仅仅依靠暴力计算得来。OpenAI的o3模型代表了AI适应新任务能力的重大突破。这不是简单的性能提升,而是AI能力的质的飞跃,远超传统大语言模型的局限。o3展现了适应全新任务的能力,在ARC-AGI领域的表现甚至接近人类水平。然而,这种通用性的代价不菲,目前还称不上经济实惠:雇人解决ARC-AGI任务只需约5美元(我们确实这样测试过),能耗仅需几美分。相比之下,o3即使在低算力模式下每个任务也要花费17-20美元。不过,成本效益有望在未来数月乃至数年内显著改善,这些能力很可能在较短时间内就能与人类劳动竞争。o3超越GPT系列的表现证明了架构的重要性。仅仅增加GPT-4的计算量是无法达到这样的效果的。简单地延续2019-2023年的思路——用相同架构训练更、投入更多数据——已经不够了。未来的进展需要新的突破。那么,o3算是真正的通用(AGI)吗?ARC-AGI作为一个关键基准,能够以其他测试无法企及的方式检测这类突破性进展,特别是在泛化能力方面。然而,需要明确的是,正如我们今年反复强调的,ARC-AGI并非AGI的决定性测试。它更像是一个研究工具,旨在引导研究人员关注AI领域最具挑战性的未解决问题,在过去五年中它很好地完成了这个使命。通过ARC-AGI测试并不意味着实现了AGI,事实上,我认为o3还称不上是真正的AGI。它在一些非常基础的任务上仍然会失败,这表明它与人类智能还存在本质差异。更值得注意的是,早期数据显示,即将推出的ARC-AGI-2基准测试对o3来说仍是一个巨大挑战。即使在高算力模式下,o3的得分可能还不到30%,而普通人无需特殊训练就能获得超过95%的成绩。这说明我们仍然能够设计出具有挑战性的新基准,而不必依赖专业领域知识。真正的AGI到来时,你会发现"设计一个对普通人简单但对AI困难的任务"这件事本身变得不可能。o3与之前的模型有何不同?为什么o3能远超o1的表现?为什么o1又能大幅领先GPT-4o?我认为这一系列结果为我们探索通用人工智能提供了宝贵的参考。我对大语言模型的理解是:它们本质上是向量程序的数据库。当收到提示时,它们会调取与提示相匹配的程序,并在当前输入上"执行"。大语言模型通过被动吸收人类创造的内容,存储和运行数以百万计的实用小程序。这种"记忆-检索-应用"的模式在有足够训练数据的情况下,可以在任何任务上达到任意水平的熟练度,但它无法适应新情况或快速掌握新技能(换句话说,它缺乏流动智力)。这一点从大语言模型在ARC-AGI测试上的表现就可见一斑。ARC-AGI是唯一专门用来测试新颖性适应能力的基准,而GPT-3得分为0,GPT-4接近0,GPT-4o也仅达到5%。即使将这些模型扩展到极限,其ARC-AGI分数也无法接近多年前简单暴力枚举方法能达到的水平(50%)。适应新环境需要两个要素。首先是知识储备——一系列可重复使用的函数或程序。大语言模型在这方面已经做得很好。其次是重组能力——面对新任务时,能够将这些函数重新组合成一个新程序,为当前任务建立模型。这就是程序合成能力。大语言模型一直缺乏这项能力,而o系列模型终于解决了这个问题。目前我们只能推测o3的具体运作方式。但其核心机制似乎是在标记空间中进行自然语言程序的搜索和执行——在测试阶段,模型会搜索可能的思维链(CoTs),描述解决任务的步骤,这个过程可能类似于AlphaZero的蒙特卡洛树搜索。在o3中,这种搜索可能由某种评估模型引导。值得一提的是,Demis Hassabis在2023年6月的采访中曾暗示DeepMind一直在研究这个方向——这项技术的发展由来已久。因此,与传统大语言模型在处理新问题时的困境相比,o3通过生成和执行自己的程序克服了这一限制,其中程序本身(思维链)成为知识重组的具体体现。虽然这不是测试时知识重组的唯一方法(还可以采用测试时训练或潜在空间搜索),但从最新的ARC-AGI测试结果来看,这代表了当前的最高水平。事实上,o3代表了一种由深度学习引导的程序搜索方式。在测试过程中,模型会在"程序"空间中搜索(这里的程序指的是自然语言程序——描述解决当前任务步骤的思维链),并由深度学习模型(基础大语言模型)引导。这就解释了为什么解决一个ARC-AGI任务可能需要处理数千万个标记并花费数千美元:搜索过程需要在程序空间中探索大量路径,包括需要回溯的情况。不过,当前的实现与我此前提出的"通往AGI的最佳路径是深度学习引导的程序搜索"这一观点有两个明显的区别。关键在于,o3生成的是需要由大语言模型"执行"的自然语言指令,而不是可直接执行的符号程序。这带来两个重要影响:首先,这些程序无法通过直接执行和评估与现实世界建立联系——它们必须依赖另一个模型来评估适用性;其次;系统无法像AlphaZero那样自主学习生成和评估程序的能力;而是需要依赖专家标注的人工思维链数据;目前我们还不清楚这个新系统的具体局限性和潜在发展空间;需要进一步测试才能得出结论;但无论如何;目前的成果已经是一个重大突破;并证实了在直觉引导下进行程序空间实时搜索是构建通用AI系统的有效方法;总结o3的出现标志着一个重要的里程碑;它在ARC-AGI测试中展现出的适应性和泛化能力突破;以其他任何基准测试都无法企及的方式证明了这一点;o3通过一种由大语言模型引导的自然语言程序搜索方法;解决了LLM范式的根本局限——无法在测试时重组知识;这不是简单的进步;而是开创了一个全新的领域;值得学术界认真研究;原文链接:https://prize.org/blog/oai-o3-pub-breakthrough

© 版权声明

相关文章