AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒

AI百科6天前发布 快创云
7 0

  AI驱动视频生成,边生成边播放,无需再等待!

  Adobe与MIT携手推出了一项革命性的技术——CausVid,这项技术实现了自回归实时视频生成。这一突破就像是从下载整部电影到直接观看流媒体视频的转变,模型在生成首帧画面后,视频即可即时播放,后续内容则动态生成并无缝衔接。

  传统的视频生成模型需要漫长的等待时间,生成一段10秒的视频往往需要几分钟。而CausVid通过创新的方式解决了这一问题。研究团队提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建了自回归生成模型。在实验中,CausVid不仅无需额外训练就能支持多种应用,其生成速度和质量也显著超越了现有方法。

  为了进一步提升生成速度,研究团队采用了分布匹配蒸馏(DMD)技术,将生成步骤从50步缩减到仅需4步。DMD是一种成功的扩散模型蒸馏技术,此前已在图像生成中取得显著成效。本次研究中,团队首次将其应用于视频扩散模型,实现了显著加速。

  然而,自回归模型面临一个核心难题——误差累积。为了解决这一问题,团队提出了非对称蒸馏策略。他们引入了一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构使模型在生成未来帧时具备更强的精确度。同时,通过对不同时间点的视频帧施加不同强度的噪声,模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

  在实验中,CausVid的表现令人惊艳:首帧生成延迟从3.5分钟降至1.3秒,提速170倍;生成速度从0.6帧/秒提升至9.4帧/秒,提升16倍;生成质量也优于主流模型。此外,CausVid完全支持在大语言模型中广泛应用的KV缓存推理技术,显著提升了生成效率。结合滑动窗口机制,CausVid突破了传统模型的长度限制,能够生成长达30秒甚至更长的视频。

  基于自回归生成的特性,CausVid无需额外训练就能支持多种应用,如图片动画化、实时视频风格转换和交互式剧情生成等。这一技术的出现为视频生成领域带来了新的可能性,让我们期待未来更多创新的AI驱动视频应用。

© 版权声明

相关文章