OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

AI百科22小时前更新快创云

4 0

　　OpenAI最新的o3系统在ARC-AGI-1公共训练集上经过训练后，在公共排行榜规定的10,000美元算力限制内，于半私有评估集上实现了75.7%的突破性成绩。而在高算力配置（172倍）下，o3更是达到了87.5%的惊人成绩。

　　o系列的表现

　　这标志着AI能力的一次重大飞跃，展现了GPT系列模型前所未有的任务适应能力。回顾过去，从2020年GPT-3的0%到2024年GPT-4o的5%，ARC-AGI-1测试用了整整4年时间。o3的出现将彻底改变我们对AI能力的认知。

　　ARC Prize的目标不仅仅是设立一个基准，它的使命是为通用人工智能指明方向。我们期待能在明年与OpenAI团队及其他机构合作，继续设计新一代的持久性AGI基准测试。

　　ARC-AGI-2将保持相同格式——对人类来说容易验证，但对AI来说更具挑战性——将与2025年的ARC Prize同步推出。

　　让我们详细了解测试报告的内容。

　　OpenAI o3在ARC-AGI测试中的表现

　　我们通过两组ARC-AGI数据集对o3进行了测试：

　　半私有评估：包含100个私有任务，用于评估是否存在过拟合。
公共评估：包含400个公共任务。

　　在OpenAI的指导下，我们采用了两种计算资源配置进行测试，分别使用不同的样本量：6（高效模式）和1024（低效模式，使用172倍的计算资源）。

　　测试结果如下：

　　半私有评估（100个任务）：
高效模式：准确率75.7%，成本2,012美元，每任务处理3300万个标记，单任务成本20美元，用时1.3分钟，样本大小6。
低效模式：准确率87.5%，处理57亿个标记，每任务用时13.8分钟（具体成本未知），样本大小：1024。

　　公共评估（400个任务）：
高效模式：准确率82.8%，成本6,677美元，每任务处理1.11亿个标记，单任务成本17美元。
低效模式：准确率91.5%，处理95亿个标记（具体成本和用时未知）。

　　关于模型调优：OpenAI透露他们使用了公共训练集的75%来训练我们测试的o3版本，但未提供更多细节。我们还没有测试未经ARC训练的原始模型，因此无法确定多少性能提升来自ARC-AGI数据的训练。

　　考虑到推理预算的可变性，效率（如计算成本）现已成为性能报告中的必要指标。我们记录了总成本和单任务成本作为初步的效率指标。虽然业界还需要确定最合适的效率衡量标准，但从趋势来看，成本是一个不错的起点。

　　在ARC-AGI-Pub规定的10,000美元预算限制内，o3达到的75.7%的高效成绩足以问鼎公共排行榜榜首！虽然87.5%的低效模式成本较高，但它证明了增加计算资源确实能提升模型在新任务上的表现（至少在目前测试的范围内）。虽然每个任务的成本不菲，但这样的成绩并非仅仅依靠暴力计算得来。OpenAI的o3模型代表了AI适应新任务能力的重大突破。这不是简单的性能提升，而是AI能力的质的飞跃，远超传统大语言模型的局限。o3展现了适应全新任务的能力，在ARC-AGI领域的表现甚至接近人类水平。然而，这种通用性的代价不菲，目前还称不上经济实惠：雇人解决ARC-AGI任务只需约5美元（我们确实这样测试过），能耗仅需几美分。相比之下，o3即使在低算力模式下每个任务也要花费17-20美元。不过，成本效益有望在未来数月乃至数年内显著改善，这些能力很可能在较短时间内就能与人类劳动竞争。o3超越GPT系列的表现证明了架构的重要性。仅仅增加GPT-4的计算量是无法达到这样的效果的。简单地延续2019-2023年的思路——用相同架构训练更、投入更多数据——已经不够了。未来的进展需要新的突破。那么，o3算是真正的通用（AGI）吗？ARC-AGI作为一个关键基准，能够以其他测试无法企及的方式检测这类突破性进展，特别是在泛化能力方面。然而，需要明确的是，正如我们今年反复强调的，ARC-AGI并非AGI的决定性测试。它更像是一个研究工具，旨在引导研究人员关注AI领域最具挑战性的未解决问题，在过去五年中它很好地完成了这个使命。通过ARC-AGI测试并不意味着实现了AGI，事实上，我认为o3还称不上是真正的AGI。它在一些非常基础的任务上仍然会失败，这表明它与人类智能还存在本质差异。更值得注意的是，早期数据显示，即将推出的ARC-AGI-2基准测试对o3来说仍是一个巨大挑战。即使在高算力模式下，o3的得分可能还不到30%，而普通人无需特殊训练就能获得超过95%的成绩。这说明我们仍然能够设计出具有挑战性的新基准，而不必依赖专业领域知识。真正的AGI到来时，你会发现"设计一个对普通人简单但对AI困难的任务"这件事本身变得不可能。o3与之前的模型有何不同？为什么o3能远超o1的表现？为什么o1又能大幅领先GPT-4o？我认为这一系列结果为我们探索通用人工智能提供了宝贵的参考。我对大语言模型的理解是：它们本质上是向量程序的数据库。当收到提示时，它们会调取与提示相匹配的程序，并在当前输入上"执行"。大语言模型通过被动吸收人类创造的内容，存储和运行数以百万计的实用小程序。这种"记忆-检索-应用"的模式在有足够训练数据的情况下，可以在任何任务上达到任意水平的熟练度，但它无法适应新情况或快速掌握新技能（换句话说，它缺乏流动智力）。这一点从大语言模型在ARC-AGI测试上的表现就可见一斑。ARC-AGI是唯一专门用来测试新颖性适应能力的基准，而GPT-3得分为0，GPT-4接近0，GPT-4o也仅达到5%。即使将这些模型扩展到极限，其ARC-AGI分数也无法接近多年前简单暴力枚举方法能达到的水平（50%）。适应新环境需要两个要素。首先是知识储备——一系列可重复使用的函数或程序。大语言模型在这方面已经做得很好。其次是重组能力——面对新任务时，能够将这些函数重新组合成一个新程序，为当前任务建立模型。这就是程序合成能力。大语言模型一直缺乏这项能力，而o系列模型终于解决了这个问题。目前我们只能推测o3的具体运作方式。但其核心机制似乎是在标记空间中进行自然语言程序的搜索和执行——在测试阶段，模型会搜索可能的思维链(CoTs)，描述解决任务的步骤，这个过程可能类似于AlphaZero的蒙特卡洛树搜索。在o3中，这种搜索可能由某种评估模型引导。值得一提的是，Demis Hassabis在2023年6月的采访中曾暗示DeepMind一直在研究这个方向——这项技术的发展由来已久。因此，与传统大语言模型在处理新问题时的困境相比，o3通过生成和执行自己的程序克服了这一限制，其中程序本身（思维链）成为知识重组的具体体现。虽然这不是测试时知识重组的唯一方法（还可以采用测试时训练或潜在空间搜索），但从最新的ARC-AGI测试结果来看，这代表了当前的最高水平。事实上，o3代表了一种由深度学习引导的程序搜索方式。在测试过程中，模型会在"程序"空间中搜索（这里的程序指的是自然语言程序——描述解决当前任务步骤的思维链），并由深度学习模型（基础大语言模型）引导。这就解释了为什么解决一个ARC-AGI任务可能需要处理数千万个标记并花费数千美元：搜索过程需要在程序空间中探索大量路径，包括需要回溯的情况。不过，当前的实现与我此前提出的"通往AGI的最佳路径是深度学习引导的程序搜索"这一观点有两个明显的区别。关键在于，o3生成的是需要由大语言模型"执行"的自然语言指令，而不是可直接执行的符号程序。这带来两个重要影响：首先，这些程序无法通过直接执行和评估与现实世界建立联系——它们必须依赖另一个模型来评估适用性；其次；系统无法像AlphaZero那样自主学习生成和评估程序的能力；而是需要依赖专家标注的人工思维链数据；目前我们还不清楚这个新系统的具体局限性和潜在发展空间；需要进一步测试才能得出结论；但无论如何；目前的成果已经是一个重大突破；并证实了在直觉引导下进行程序空间实时搜索是构建通用AI系统的有效方法；总结o3的出现标志着一个重要的里程碑；它在ARC-AGI测试中展现出的适应性和泛化能力突破；以其他任何基准测试都无法企及的方式证明了这一点；o3通过一种由大语言模型引导的自然语言程序搜索方法；解决了LLM范式的根本局限——无法在测试时重组知识；这不是简单的进步；而是开创了一个全新的领域；值得学术界认真研究；原文链接：https://prize.org/blog/oai-o3-pub-breakthrough

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

ai课程是什么意思

AI生成背景转换：支持透明背景一键转换

相关文章

海康AI开放平台客户端 v1.6.4 官方安装免费版

推荐5个AI商品图优化工具

4个Stable Diffusion AI免费模型下载网站推荐！

AI编辑的PDF格式文件怎么才能打印？

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

ai课程是什么意思

AI生成背景转换：支持透明背景一键转换

相关文章

海康AI开放平台客户端 v1.6.4 官方安装免费版

推荐5个AI商品图优化工具

4个Stable Diffusion AI免费模型下载网站推荐！

AI编辑的PDF格式文件怎么才能打印？

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】 闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪