田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

　　AI能否公正评估自身？Meta与KAUST团队最新研究揭示革命性框架

　　在AI领域，评估智能体的决策路径一直是个棘手的问题。传统方法要么只关注结果，要么需要大量人工参与，效率低下。而现在，Jürgen Schmidhuber带领的团队提出了一种创新的「Agent-as-a-Judge」框架，让智能体来评估其他智能体系统，实现AI审AI。这一框架不仅显著降低了97%的成本和时间，还能提供丰富的中间反馈，为智能体的自我改进铺平道路。

　　该研究团队还引入了DevAI基准，作为该框架的概念验证测试平台。该基准包含55个真实的AI开发任务，带有详细的手动注释，能够全面评估智能体的性能。通过对三个领先的智能体系统进行基准测试，研究人员发现「Agent-as-a-Judge」框架在任务依赖性和完整性方面显著优于「LLM-as-a-Judge」框架。

　　此外，DevAI基准的推出也解决了当前代码生成基准测试中的不足。与HumanEval和MBPP等基准相比，DevAI更贴近开发者的实际需求，涵盖了监督学习、强化学习、计算机视觉等多个关键领域。每个任务都是可能交给研究工程师的真实世界问题，降低了评估方法的计算成本。

　　在DevAI基准的测试中，MetaGPT、GPT-Pilot和OpenHands等开源代码生成智能体框架的表现各异。结果显示，MetaGPT最具成本效益，而OpenHands则是最昂贵的。从开发时间来看，OpenHands完成任务平均耗时最长。然而，在Human-as-a-Judge的测试中，不同人类评估者之间存在大量分歧，凸显了单一人类评估的局限性。

　　「Agent-as-a-Judge」框架通过模仿人类评估过程，设计了8个模块化交互组件，包括图像模块、定位模块、读取模块等，能够全面理解代码上下文并快速检索相关代码片段。这一框架在各项任务中均表现出色，特别是在任务依赖关系的情况下。通过PR曲线分析，研究人员发现「Agent-as-a-Judge」在某些情况下几乎可以取代人类评估员。

　　总之，「Agent-as-a-Judge」框架的提出为智能体的自我评估和持续改进提供了新的思路。结合DevAI基准的广泛应用，该框架有望推动AI技术的进一步发展。

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

Behaviour Recognition Algorithm Wins Another Title

AI松鼠智能教育怎么样？家长评价如何？

相关文章

Anthropic工程师分享沉浸式体验，和「AI搭子」Claude共度完美一天

精通AI虚拟数字人制作与应用

ai使用教程入门基础图解

微软 Microsoft Designer – 免费 AI 设计制图软件！小白也能瞬间创建惊艳作品

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

Behaviour Recognition Algorithm Wins Another Title

AI松鼠智能教育怎么样？家长评价如何？

相关文章

Anthropic工程师分享沉浸式体验，和「AI搭子」Claude共度完美一天

精通AI虚拟数字人制作与应用

ai使用教程入门基础图解

微软 Microsoft Designer – 免费 AI 设计制图软件！小白也能瞬间创建惊艳作品

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】 闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪