AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景

AI百科6个月前更新 快创云
46 0

  在春节期间,OpenAI推出的AI视频模型Sora引发了广泛关注,其影响力甚至掩盖了OpenAI在AI Agent方面的最新进展。实际上,早在2月8日,科技媒体The Information就报道了OpenAI正在研发两款革命性的Agent软件,其中一款能够接管客户的设备以自动执行复杂任务。

  据称,这款Agent能够执行点击、光标移动、文本输入等操作,与人类操作无异。例如,它可以自动将文档中的数据导入电子表格进行分析,填写费用报告并输入会计软件,或根据预算制定行程和预订机票。媒体将其称为AI Agent 2.0。

  虽然报道未明确说明所接管设备是PC还是手机,但鉴于ChatGPT已有移动端应用,相信在手机或平板上调用这个Agent只是时间问题。

  在移动端构建AI Agent的大语言模型(LLM)的厂商不仅限于OpenAI。去年12月,腾讯与德州大学达拉斯分校合作推出了AppAgent项目,该项目通过自主学习和模仿人类手势,能在手机上执行各种任务。而阿里巴巴与北京交通大学联合推出了Mobile-Agent框架,其纯视觉解决方案摒弃了传统手机操作对XML等标记语言及系统元数据的依赖。

  此外,LLM创业团队也推出了相应的Agent项目,如清华&智谱AI团队推出的CogAgent-Chat,它基于180亿参数的视觉语言模型(VLM),专注于GUI图形交互界面的理解和导航。

  如今的大语言模型均支持多端通用,MAS和SaaS模式使得LLM厂商推出的AI Agent构建平台及个体能够轻松应用于手机端。AI智能体涌向移动端已成为AIGC行业发展的必然趋势。

  微软在春节前推出了名为UFO的Windows Agent,这是一款用于构建用户界面(UI)交互智能体的Agent框架,能迅速理解和执行用户的自然语言请求。UFO可在Windows内自主回答用户查询,并在单个或多个App中无缝导航和操作以满足用户请求。这意味着以前需要手动操作的跨应用程序工作流程现在可以简化为针对UFO的简单自然语言指令。

  在2024 CES上,联想首次提出“智能终端AI OS”概念,即在AI技术驱动下,智能终端将内嵌个人Agent、个人大模型、本地知识库和应用接口,形成下一代AI OS。联想预计AI技术的突破将在PC、手机、AIoT等领域引发第三次技术革命浪潮。

  手机厂商也在积极行动。小米、华为、vivo、理想等公司联合清华大学智能产业研究院发布了个人LLM智能体综述论文,提出了个人LLM智能体的5级(L1—L5)智能水平分级法。OPPO等推出的AI手机已展现出“准AI Agent”属性,而理想汽车则探索了AI Agent在人车交互场景的应用。

  在企业服务领域,字节跳动推出了「Coze 扣子」AI Bot开发平台,让用户能低门槛地搭建自己的Chatbot。钉钉7.5版本全量上线了AI Agent产品“AI助理”,具备信息摘要、写工作总结等通用办公能力。用友的YonGPT则通过扩充大模型的存储记忆和应用执行能力,形成了体系化的企业服务大模型。

  手机智能体不仅限于智能助手的升级版,更是一种新的互动方式。它们能够感知用户需求、自主决策执行,并学会用户习惯,提供个性化服务。目前手机Agent一般分为交互式和业务类两种,能够跨终端、跨软件、跨部门处理业务流程。手机Agent的构建不一定在手机端进行,也可以在PC端触发以满足B端客户移动业务实现的需求。

  随着手机智能体的不断发展,它将成为更加强大、智能化的存在,成为我们生活的一部分并预示着手机和移动终端行业新纪元的到来。比尔·盖茨认为AI智能体将带来自键入命令到点击图标以来最大的计算革命而手机智能体带来的终端Agent智能革命很可能承载这一历史使命。

© 版权声明

相关文章