一文了解生成式AI视频

AI百科3个月前更新 快创云
34 0

  去年,AI视频领域迎来了爆发式增长。2023年年初,尚未有公开的文本转视频模型,但时至今日,AI视频生成产品已多达数十种,用户数更是以百万计。本文将回顾这一年来AI生成式视频的发展,探讨其关键技术和应用,并展望未来的发展方向。

AI视频分类

  AI视频主要分为以下四大类:

  1. 文本/图片生成视频:通过输入文本描述或上传图片,即可生成对应的视频。这类应用包括Runway、Pika、NeverEnds等。例如,Runway的影视风格、Pika的动漫风格,以及最近热门的阿里“全民舞王”。
  2. 视频到视频的生成:包括风格迁移、视频内部替换、局部重绘、视频高清化等。例如,WonderStudio的人物CG替换、DomoAI的视频风格转换等。
  3. 数字人类:以Heygen和D-iD为代表,通过人脸检测、语音克隆、口型同步等技术实现。
  4. 视频编辑类型:素材匹配和关键部分剪辑等,例如剪映等在线素材搜索工具。

关键技术解析

  AI视频生成技术主要包括以下三种:

  1. 生成式对抗网络(GAN):GAN包括一个生成器和一个判别器,两者不断竞争,生成逼真的图像。尽管GAN在风格迁移和超分方面应用广泛,但其训练稳定性和多样性存在挑战。扩散模型在生成图像时展现出更高的多样性,且训练过程更稳定。
  2. 扩散模型(Diffusion Model):灵感来自非平衡热力学,通过逐步添加噪声和反向扩散过程生成数据样本。Runway和Pika等应用均基于扩散模型,但两者技术架构不同:Pika采用“Per Frame”架构,而Runway采用“Per Clip”架构。
  3. Transformer架构:Transformer擅长处理长序列数据,在生成长视频时具有优势。例如,Google的VideoPoet集成了多个视频生成功能,展示了Transformer在视频生成上的潜力。然而,Transformer的完全注意力机制导致处理高维信号时成本过高,因此研究者提出了窗口注意力潜在Transformer(WALT)等优化方法。

应用案例

  1. Animate anyone:基于扩散模型+Controlnet等技术,生成视觉上一致、动作上可控且时间上连贯的动画角色。
  2. DomoAI:将真人视频转化为动漫,结合风格迁移等技术实现。
  3. AI视频换脸:基于深度学习技术实现人脸检测、特征提取、人脸转换等过程。虽然技术成熟,但使用风险较大。

未来展望与挑战

  未来,AI视频技术将朝着更高清晰度、更高一致性和更强可控性发展。同时,Transformer与Diffusion Model或将并存,共同推动AI视频技术的发展。然而,技术挑战依然存在,如提高生成视频的视觉质量、保持人物一致性以及增强可控性等。随着技术的不断进步和资金的持续投入,AI视频技术有望在未来几年内实现更大的突破和飞跃。让我们共同期待AI视频的GPT时刻的到来!

© 版权声明

相关文章