大家好,欢迎聆听今日的科技分享。
近期,OpenAI在2025年1月24日的一次直播中,明确为AI agent的发展指明了方向。这场直播由四人进行,时间长达20多分钟,尽管过程中充满了挑战和“翻车”的尴尬,但无疑为AI领域带来了新的启示。
这次直播的主角包括山姆奥特曼以及两位中国参与者,他们坐在镜头前,脸上挂着尴尬而不失礼貌的微笑。他们所尝试的AI agent项目,步伐确实迈得有些大,因此遇到了一些意料之外的挑战。每年年初,OpenAI都会发布新的发展方向,今年则特别聚焦于AI agent。
回想2024年,OpenAI在2月15日曾通过Sora的演示来指明方向,但遗憾的是,Sora并未取得预期的成功。尽管如此,全球众多公司仍在视频大模型上投入了大量算力。今年,OpenAI再次为AI agent的发展指明了方向。那么,这个operator到底能做什么呢?它内部有一个名为computer using agent(CUA)的引擎,发音听起来像是“哭啊哭啊”。
这个引擎能够自动操作鼠标和键盘,主要应用在浏览器上。它与浏览器的沟通依赖于视觉系统——即它通过观察浏览器中的内容来实现操作。这种方式避免了直接读取数据的问题。传统的AI agent通常是通过读取网页文件的HTML内容,并运用各种正则表达式或信息抽取技术来处理数据。而OpenAI这次采用的是视觉截图的方式。
值得一提的是,OpenAI在微软云的机房里部署了大量的浏览器。这些浏览器由前Chrome团队的核心成员开发,如Ben Oger和Darren Fischer等资深工程师的加入,无疑为项目增色不少。他们被要求在这些浏览器内核中运行computer using agent。该agent具备自动判断用户意图的能力,并能进行行为规划。例如,用户说“我要订餐”,agent便会自动进行规划并执行任务。
然而,这个项目在演示过程中出现了不少问题。例如,订餐时出现了城市错误的情况。这是因为远程启动的浏览器使用的是微软云服务器的IP地址,导致定位出错。此外,在网购、预约服务等场景中,也频繁出现了各种问题。这显示了当前OpenAI的operator还非常不成熟,需要与人协作才能完成复杂任务。
另一个挑战是cookie和session的处理。由于这些agent使用的是无痕浏览模式,导致无法进行自动填表等需要cookie支持的功能。此外,隐私保护的问题也让人担忧。用户是否真的愿意将敏感信息(如信用卡号)传给AI呢?这无疑影响了用户体验。
安全性问题也是一大挑战。OpenAI的operator已经开始影响现实世界,这可能导致新的安全漏洞。例如,通过大小字游戏或隐藏文字来欺骗AI系统。此外,黑客可能利用人机验证和双重认证等环节的漏洞进行攻击。因此,OpenAI需要在这方面加强防护。
此外,OpenAI推出operator可能还带有一些“小阴谋”。目前只有美国地区的Pro用户才能使用(每月200美元),这引发了关于账号共享的讨论。一旦账号被共享出去,使用量将大幅增加。为了应对这种情况,OpenAI可能会采取更严格的措施来打击账号共享行为。例如,通过绑定用户的私人信息来防止账号被滥用。
国内的大厂如阿里、谷歌等已经开始关注这个方向并投入研发资源。他们可能会推出自己的解决方案来应对OpenAI的挑战。例如使用本地浏览器来虚拟窗口完成任务可以避免出现IP地址错误的问题并且降低资源消耗成本。
总的来说OpenAI今年为AI agent的发展指明了方向即“眼睛、脑子和手脚”。这包括自动识别用户意图、自动进行行为规划以及通过远程浏览器操作完成复杂任务等三个环节它被称为AI agent 3.0. 这个概念为AI agent的发展带来了新的可能性并可能带来商业上的突破因为一旦完成交易就可以通过各种方式盈利了这对于所有从事AI领域的人来说无疑是一个好消息。在这个过程中可能会引发新的竞争和合作机会让我们拭目以待吧!