Emu3:智源推出的原生多模态世界模型,可实现图像、文本、视频的统一理解和生成 Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成 AI工具# AI大模型# AI训练模型# 多模态模型 3个月前41