田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

AI百科3周前发布 快创云
17 0

  AI能否公正评估自身?Meta与KAUST团队最新研究揭示革命性框架

  在AI领域,评估智能体的决策路径一直是个棘手的问题。传统方法要么只关注结果,要么需要大量人工参与,效率低下。而现在,Jürgen Schmidhuber带领的团队提出了一种创新的「Agent-as-a-Judge」框架,让智能体来评估其他智能体系统,实现AI审AI。这一框架不仅显著降低了97%的成本和时间,还能提供丰富的中间反馈,为智能体的自我改进铺平道路。

  该研究团队还引入了DevAI基准,作为该框架的概念验证测试平台。该基准包含55个真实的AI开发任务,带有详细的手动注释,能够全面评估智能体的性能。通过对三个领先的智能体系统进行基准测试,研究人员发现「Agent-as-a-Judge」框架在任务依赖性和完整性方面显著优于「LLM-as-a-Judge」框架。

  此外,DevAI基准的推出也解决了当前代码生成基准测试中的不足。与HumanEval和MBPP等基准相比,DevAI更贴近开发者的实际需求,涵盖了监督学习、强化学习、计算机视觉等多个关键领域。每个任务都是可能交给研究工程师的真实世界问题,降低了评估方法的计算成本。

  在DevAI基准的测试中,MetaGPT、GPT-Pilot和OpenHands等开源代码生成智能体框架的表现各异。结果显示,MetaGPT最具成本效益,而OpenHands则是最昂贵的。从开发时间来看,OpenHands完成任务平均耗时最长。然而,在Human-as-a-Judge的测试中,不同人类评估者之间存在大量分歧,凸显了单一人类评估的局限性。

  「Agent-as-a-Judge」框架通过模仿人类评估过程,设计了8个模块化交互组件,包括图像模块、定位模块、读取模块等,能够全面理解代码上下文并快速检索相关代码片段。这一框架在各项任务中均表现出色,特别是在任务依赖关系的情况下。通过PR曲线分析,研究人员发现「Agent-as-a-Judge」在某些情况下几乎可以取代人类评估员。

  总之,「Agent-as-a-Judge」框架的提出为智能体的自我评估和持续改进提供了新的思路。结合DevAI基准的广泛应用,该框架有望推动AI技术的进一步发展。

© 版权声明

相关文章