就在此刻,李飞飞空间智能团队突然宣布了其首个项目的问世:只需一张图片,便能构建出一个可交互的3D游戏世界。
此AI系统的一大亮点在于,所生成的3D世界具备高度的互动性。用户如同置身游戏之中,能够自由地移动相机,探索这个由AI一手打造的3D空间,无论是浅景深效果还是希区柯克变焦等操作均轻松实现。
只需输入一张图片,除了图片本身,整个可探索的3D世界中的一切元素均源自AI的创造。这些场景在浏览器中即时渲染,配以可控的摄像机效果和可调整的模拟景深(DoF),用户甚至能调整物体颜色、动态光影及插入新对象。
此外,与以往多数生成模型仅预测像素不同,此系统直接预测3D场景,确保场景在视线转移后不会发生变化,并遵循基本的3D几何物理法则。
消息一出,网络反响热烈,评论区“难以置信”一词刷屏。Shopify创始人Tobi Lutke等业界知名人士纷纷点赞。更有网友认为这标志着VR技术的全新突破。
官方表示:“这只是3D原生生成AI未来的一个缩影。”他们正致力于将这项技术尽快推向市场。李飞飞本人也第一时间分享了这一成果,强调通过一张照片或一句话生成互动3D场景的体验难以用语言形容,并希望大家能够喜欢。
目前,候补名单申请已启动,已有内容创作者率先体验。官方博文指出,World Labs迈出了重要一步:发布了一个能从单张图片生成3D世界的AI系统,并强调“超越输入图像,一切皆由生成”。该系统支持任何图片的输入,且生成的3D世界可互动,用户可通过W/A/S/D键或鼠标拖动控制视角。
那么,这个AI系统生成的3D世界还有哪些值得深入探讨的细节呢?World Labs表示,一旦生成,这个3D世界将在浏览器中即时渲染,给人一种仿佛置身虚拟摄像头视野的感觉。用户能精准控制这个“虚拟摄像头”,包括模拟景深和滑动变焦等效果。此外,系统生成的3D世界遵循正确的几何规则,确保场景的持久性和真实性。
官方还提到,通过绘制深度图可以创建可视化3D场景,每个像素的颜色由其与摄像头的距离决定。用户还能利用3D场景结构构建互动效果,如单击场景以触发聚光灯等效果。至于动画效果,更是轻松实现。
值得一提的是,团队还尝试以“全新方式”体验经典艺术作品,通过输入一张图片就能补全原画中的空白部分,进而转化为3D世界。例如梵高的《夜晚露天咖啡座》和爱德华·霍普的《夜行者》等作品均被成功转化。
World Labs公司由斯坦福大学教授、AI领域的权威专家李飞飞于今年4月创立。她的创业方向是空间智能——视觉化为洞察、看见成为理解、理解导致行动。在李飞飞看来,这是“解决人工智能难题的关键拼图”。仅用3个月时间,公司估值便突破10亿美元,成为新晋独角兽。其投资者阵容强大,包括a16z、NEA和Radical Ventures等领投方及Adobe、AMD、Databricks和老黄的英伟达等战略投资者。此外,Karpathy、Jeff Dean、Hinton等业界大佬也加入了个人投资者行列。
今年5月,李飞飞在TED发表了一场15分钟的公开演讲,分享了她对空间智能的更多思考。她强调视觉能力在智能进化中的重要性以及空间智能的最新里程碑——教计算机看到、学习、行动并学习看到和行动得更好。随着空间智能的加速进步一个新时代正在我们眼前展开这种循环正在催化机器人学习成为任何需要理解和与3D世界互动的具身智能系统的关键组成部分。
据报道该公司正瞄准视频游戏开发商和电影制片厂等目标客户群除了互动场景外还计划开发一系列对艺术家设计师开发人员电影制作人和工程师等专业人士有用的工具随着首个项目的发布他们正逐步将愿景变为现实。但World Labs也明确表示目前发布的是一个“早期预览”他们仍在努力提升生成世界的规模和逼真度并探索更多与用户互动的新方式。