AI Agent技术正逐步重塑我们的工作与生活方式。本文深入探讨了AI Agent构建平台的奥秘,从概念解析到功能剖析,再到国内外平台的全面比较,带领读者领略这一变革性技术的魅力。

Agent一词在人工智能领域的早期研究中,被用来描述能够执行任务或做出决策的程序或系统。随着技术的发展,Agent在人工智能领域通常指的是“决策、感知、执行于一体”的智能系统或智能应用,其“大脑”可以由各类LLM或VLM充当。

图1-1展示了从2022年11月30日至2024年7月17日的百度指数数据。图1-2则展示了从2023年7月16日至2024年7月17日的谷歌指数数据。这些数据反映了AI Agent技术的热度与关注度。
在2023年11月20日,OpenAI推出了GPTs后,各类基于GPTs的AI Agent构建平台如雨后春笋般涌现,功能日益丰富。国内外的AI头部公司、互联网大厂以及RPA、企业办公(CRM、客服)业务的公司纷纷推出了相关产品,如Beam.ai、亚马逊Bedrock Agent等。这些Agent和GPTs正在悄然改变人们的工作方式,提高生产效率,并重新定义生产力。据统计,国内外的AI Agent构建平台已超过80个。

图1-3展示了智谱清言智能体中心的“新建智能体”产品功能截图,而图1-4则展示了文心一言智能体产品的界面截图。这些平台都提供了基于LLM通识能力的对话机器人构建和基于LLM、工作流、知识库、API插件于一体的复杂Agent构建功能。
吴恩达教授在红杉资本AI Ascent的分享中提到,反思(reflection)、工具使用(Tool use)、规划(Planning)、多智能体协作(Multiagent collaboration)四种AI Agent设计模式已经逐步在一些Agent构建平台实现。这些模式使得AI Agent更加智能、更加“懂用户”。

图2-1展示了字节AI智能体构建平台(Coze)的产品主页截图。目前,这些AI Agent构建平台在UI界面和功能逻辑上大同小异,均提供基于LLM通识能力的简单智能体构建和基于LLM、工作流、知识库、API插件于一体的复杂Agent构建两种模式。用户只需输入一段简单的智能体工作&技能相关描述,后台AI便能自动生成智能体名称、头像、简介及系统提示词等内容,非常快捷方便。

图2-2(a)展示了智谱清言“新建智能体”的用户输入界面,而图2-2(b)则展示了系统根据用户输入自动生成的智能体配置信息。这些平台还支持用户通过“画布拖拽式”的工作流搭建功能来实现更复杂的业务需求。
AI Agent产品适用于多种场景,如仅依靠LLM通识能力实现业务需求,或通过配置企业/个人知识库、调用API插件来实现更复杂的需求。此外,这些平台还支持多智能体协作功能,使得多个AI代理能够协同工作,共同完成更复杂的任务。例如,字节Coze新建的智能体(test-bot)适用于美食推荐专家、智能沟通专家等场景。
关于AI Agent产品的特点、适用场景以及功能模块等问题,以下是简要回答:
Q1:AI Agent产品有什么特点?
A1:AI Agent产品一般具备AI Agent 0-1构建的功能,可帮助用户或企业零代码或低代码地通过“自然语言”的方式快速搭建一个chatbot应用。此外,这些平台还支持个人和企业用户构建复杂的智能体应用,通过提供插件、知识库、工作流、多智能体协作等功能模块来实现这一过程。同时支持对智能体的在线调试和发布。
Q2:AI Agent用来解决谁的什么问题的?
A2:AI Agent平台可以帮助个人用户和企业通过“自然语言”、工作流配置等方式无代码或低代码地简单高效地搭建一款chatbot应用。在对话和任务执行过程中,用户可以选择LLM来完成任务。基于LLM的chatbot相比传统的智能对话机器人更加智能、更加“懂用户”。
Q3:目前AI Agent产品有哪几种设计模式?分别有什么特点?
A3:吴恩达教授提到的四种AI Agent设计模式包括反思(Reflection)、工具使用(Tool Use)、规划(Planning)、多智能体协作(Multiagent Collaboration)。这些模式使得AI Agent在执行任务时能够自我评估和调整行为、识别和使用工具、制定和执行计划以及协同工作。
Q4:AI Agent平台一般有哪些功能模块?
A4:AI Agent平台一般包含基于LLM的chatbot 0-1搭建功能以及智能体商城功能等。在智能体配置功能上包括基本信息配置和复杂配置两部分;在LLM选择和配置上支持自家LLM和三方LLM;在工作流配置功能上实现“画布式”可视化配置方式;在插件选择上支持预置插件商城和自定义插件;在知识库配置上支持导入外部文档资料和连接数据库等功能。