每帧都是AI实时生成的,全球首款AI游戏问世了

AI百科4个月前发布 快创云
55 0

  欢迎探索 Transformer 的奇幻世界。

  近期,AI 游戏领域再次迎来突破性进展。两个月前,谷歌的 GameNGen 项目颠覆了我们对 AI 游戏的认知,它实现了无需游戏引擎,仅凭扩散模型即可为玩家生成实时可玩的游戏。这一创新不仅让全球价值 2000 亿美元的游戏产业面临变革,更预示着无论何种类型的游戏,都将根据玩家的意愿和想象,幻化出独一无二的专属世界。这一观点迅速在 AI 圈内引起热议。

  当时,除了备受瞩目的《黑神话:悟空》,米哈游创始人蔡浩宇的言论也引发了广泛关注:“AI 将颠覆游戏开发,建议多数游戏开发者考虑转行。”而仅仅两个月后,这一领域便迎来了新的里程碑——AI 实时生成的游戏不再是遥不可及的概念演示,而是可以亲身体验的现实。

  昨日,初创公司 Etched 与 Decart AI 携手推出了全球首个实时生成的 AI 游戏 Oasis。玩家所体验到的每一帧画面,都源自扩散模型的实时预测,游戏以每秒 20 帧的速度进行渲染,确保零延迟。

  更重要的是,所有代码和模型权重均已开源。

  试玩链接:Oasis 游戏体验

  项目链接:Oasis 开源代码

  模型权重:Oasis 模型权重

  AI 技术的飞跃让高质量的图形和复杂的实时交互成为可能,这一切的到来令人措手不及。不少网友惊叹:难道我们已穿越到《黑客帝国》中的矩阵世界了吗?

  AI 领域的专家同样对 Oasis 给予高度关注。包括普林斯顿助理教授 Tri Dao 等众多大佬纷纷表示:“模型推理的成本将很快变得非常低廉,我们的许多娱乐内容都将由人工智能生成。”

  然而,作为游戏,我们仍需以游戏的标准来评价它。

一流的意义,但体验略显困惑

  我们立即尝试了这款游戏。果然,重要的事情要强调三遍——这是世界上第一款 AI 实时生成的游戏。一进入界面,Oasis 就提醒:“请注意,你做出的每一步都将决定整个世界的走向。”这瞬间提升了玩家的期待值。游戏内容能够实时自我塑造,意味着玩家的一举一动都将影响这个世界,无需再遵循固定的模式和任务,因为每一秒都是 AI 为你量身定制的惊喜。

  从海岸、村庄、森林、沙漠等地形中选择一个,即可开始体验。(由于 Oasis 太过火爆,想真玩上还需排队,且每位使用者限时体验五分钟。)终于进入游戏后,却发现它与《我的世界》有些相似,甚至有人觉得与《幻兽帕鲁》也很像。

  “这样做真的没有版权问题吗?”许多试玩者也有此疑问,“告诉 AI:参考《我的世界》做一个游戏,改改 UI 就行。”AI 似乎真的“下载《我的世界》,启动!”然而,按照《我的世界》的玩法继续搭建房屋时,Oasis 生成的牛棚还是可圈可点的。毕竟,驱动这款游戏的不是预设的逻辑和程序,而只有一个 AI 模型。例如,把栅栏放在另一个栅栏旁边的动作看似简单一步,但模型其实完成了识别你点击的是栅栏、它应如何与其他物体排列、这个画面应如何呈现等复杂任务。

  不过,相比其预测能力,Oasis 的记忆似乎是短板。例如画面左边的山在转回头时消失了。有网友猜测这可能是牺牲了参数数量以换取实时推理速度的结果。虽然官方声称游戏操作是零延迟的,但使用鼠标操控有些困难,就像有神秘力量影响鼠标与电脑间的连接。想要点击背包中某一格的物品时总会识别到其他格中。此外游戏中的文字也带有一种梦核的意味,轮廓模糊难以看清。

  有网友形容得很贴切:“开始时我以为是《我的世界》,但亲自尝试后发现这是吃了菌子再玩的《我的世界》。”

Oasis 的技术:Transformer 中的宇宙

  作为 Oasis 的技术支持,Etched 和 Decart AI 均发布了技术博客。Decart AI 负责训练模型而 Etched 提供算力支持。

架构:模型由两部分组成:一个空间自编码器和一个潜在扩散模型结构。这两部分均基于 Transformer 模型:自编码器基于 ViT 而主干则基于 DiT。与 GameNGen 和 DIAMOND 等基于动作的世界模型不同 Oasis 的研究团队选择了 Transformer 以确保稳定、可预测的扩展。与双向模型如 Sora 不同 Oasis 是自回归地生成帧的能够根据游戏输入调节每一帧从而构成 AI 生成的游戏实时与世界互动的基础。该模型采用 Diffusion Forcing 训练方法能够独立对每个 token 进行去噪通过在空间注意力层之间加入额外的时间注意力层利用前几帧的上下文。此外扩散过程在 ViT VAE 生成的潜在维度中进行这一维度不仅压缩了图像大小还使得扩散能够专注于更高层次的特征。DecartAI 关注时间的稳定性——需要确保模型的输出在长时间跨度内是有意义的。在自回归模型中错误会累积小瑕疵很快会累积成错误的帧。为了解决这个问题该团队在长上下文生成中进行了创新选择的方法是动态调整噪声。模型推理时将对噪声实施这样的计划初期通过扩散前向传播注入噪声以减少错误积累在后期逐渐去除噪声使模型能够发现并保持之前帧中的高频细节。性能:Oasis 游戏以每秒 20 帧的速度生成实时输出。目前最先进的具有类似 DiT 架构的文本转视频模型(如 Sora、Mochi-1 和 Runway)可能需要 10-20 秒才能创建一秒钟的视频即使在多个 GPU 上也是如此。然而为了匹配玩游戏的体验 Oasis 的模型必须最多每 0.04 秒生成一个新帧速度快了 100 倍以上。借助 Decart 推理堆栈的优化设置开发者大幅提升了 GPU 的运行、互联效率让该模型最终能以可播放的帧速率运行首次解锁了实时交互性。但是为了使模型速度再快一个数量级并使其大规模运行更具成本效益就需要新的硬件。Oasis 针对 Etched 构建的 Transformer ASIC Sohu 进行了优化能够扩展到 4K 分辨率的 100B+ 大规模下一代模型。此外 Oasis 的端到端 Transformer 架构使其在 Sohu 上运行非常高效即使在 100B+ 参数模型上也可以为 10 倍以上的用户提供服务对于像 Oasis 这样的生成任务来说价格显然是可运作的隐藏瓶颈。来势汹汹的 Etched 与 Decart AI:Etched 这个名字或许陌生但它代表着硅谷又一个 AI 融资神话。两位 00 后创始人 Chris Zhu 和 Gavin Uberti 把宝押在了基于 Transformer 架构的大模型上选择 all in Transformer 并于 2022 年双双从哈佛大学退学联手创业专门开发用于 Transformer 模型的专用芯片(ASIC)。今年 7 月他们宣称:“就 Transformer 而言 Sohu 是有史以来最快的芯片没有任何芯片能与之匹敌。”当天 Etched 完成了 1.2 亿美元 (约人民币 8 亿元) 的 A 轮融资投资阵容集结了一众硅谷大佬向英伟达发起了挑战。与英伟达相比一台集成了 8 块 Sohu 的服务器性能超过 160 块 H100 Sohu 的速度比 H100 快 20 倍;与英伟达最强的新一代 B200 相比 Sohu 的速度要快 10 倍以上而且价格更便宜。Decart 则是一家来自以色列的人工智能公司直到今日才正式露面伴随 Oasis 发布的同时还有 Decart 获得红杉资本和奥伦・泽夫 2100 万美元(约等于 1.5 亿人民币)融资的消息在推出 Oasis 之前 Decart 提供的主要服务为构建更高效的平台提升大模型的速度和可靠性。Oasis 或将成为一个好的开始或许在此基础之上不久以后我们就能玩到全新形态的 AI 游戏?

© 版权声明

相关文章