2月16日,OpenAI发布了名为Sora的视频生成模型,这一举措极大地增强了AI在视频内容创作方面的能力。Sora在关键性能指标上遥遥领先于之前的视频生成模型,其生成的视频在模拟物理世界空间方面的能力几乎达到了以假乱真的水平。
Sora的里程碑意义与实现方式
Sora之所以被称为AI界的新里程碑,是因为它再次突破了AI驱动内容创作的上限。此前的模型如Chatgpt主要用于文本创作,而Sora则是一个视频生成大模型,它能够通过输入文本或图片来生成、编辑视频,属于多模态大模型的范畴。Sora通过类似GPT-4处理文本令牌的方式来处理视频“补丁”,将视频帧视为补丁序列,与文本条件生成相结合,使Sora能够根据文本提示生成连贯且视觉上一致的视频。
Sora的视频训练过程主要分为三个步骤:视频压缩网络、时空补丁提取和视频生成。通过这些步骤,Sora能够将输入文本或图片解码并组合成完整的视频。
Sora的当前水平与局限性
Sora在时长和分辨率方面显著超越了之前的模型,能够生成长达60秒的视频,且分辨率达到1080p。此外,Sora对文本的深度理解和细节生成能力也很强。然而,Sora也存在一些局限性。例如,在模拟物理世界时,它可能会产生一些不符合物理规律的“错误”,如被打翻的玻璃杯没有碎裂效果,或者从沙滩里挖出的椅子会飘起来。这些“错误”主要是由于模型在自动补齐生成内容时产生的对象或实体不在文本规划内,或者模型在模拟多个动作时混淆了顺序。
Sora的发展方向与挑战
未来,Sora的效能提升可能从数据维度、算法优化和算力产业三个方面入手。首先,随着训练数据需求的激增,未来可能面临可训练数据样本匮乏的问题。因此,扩大数据来源的维度是Sora发展的关键。其次,解决模型学习中的“过拟合”和“欠拟合”现象也是关键。最后,算力需求将在多模态模型发展下持续高涨,AI企业可能需要向上游产业链布局,如芯片研发设计。
Sora的应用领域与影响
Sora的应用领域广泛,可能颠覆影视、直播、媒体、广告、动漫、艺术设计等行业。在短视频创作领域,Sora有望降低短剧制作的综合成本,使制作重心回归高质量的剧本内容创作。此外,广告制作公司和游戏与动画公司也可以使用Sora来生成符合品牌的广告视频和游戏场景,降低制作成本。随着AI技术的不断发展,Sora等生成视频大模型可能会使AI视频效果与人工拍摄不相上下。2024年可能会成为AI视频生成和多模态大模型的元年,AI对每个个人、每个行业的现实影响与改变正在逐步发生。