去年,AI视频领域迎来了爆发式增长。2023年年初,尚未有公开的文本转视频模型,但时至今日,AI视频生成产品已多达数十种,用户数更是以百万计。本文将回顾这一年来AI生成式视频的发展,探讨其关键技术和应用,并展望未来的发展方向。
AI视频分类
AI视频主要分为以下四大类:
- 文本/图片生成视频:通过输入文本描述或上传图片,即可生成对应的视频。这类应用包括Runway、Pika、NeverEnds等。例如,Runway的影视风格、Pika的动漫风格,以及最近热门的阿里“全民舞王”。
- 视频到视频的生成:包括风格迁移、视频内部替换、局部重绘、视频高清化等。例如,WonderStudio的人物CG替换、DomoAI的视频风格转换等。
- 数字人类:以Heygen和D-iD为代表,通过人脸检测、语音克隆、口型同步等技术实现。
- 视频编辑类型:素材匹配和关键部分剪辑等,例如剪映等在线素材搜索工具。
关键技术解析
AI视频生成技术主要包括以下三种:
- 生成式对抗网络(GAN):GAN包括一个生成器和一个判别器,两者不断竞争,生成逼真的图像。尽管GAN在风格迁移和超分方面应用广泛,但其训练稳定性和多样性存在挑战。扩散模型在生成图像时展现出更高的多样性,且训练过程更稳定。
- 扩散模型(Diffusion Model):灵感来自非平衡热力学,通过逐步添加噪声和反向扩散过程生成数据样本。Runway和Pika等应用均基于扩散模型,但两者技术架构不同:Pika采用“Per Frame”架构,而Runway采用“Per Clip”架构。
- Transformer架构:Transformer擅长处理长序列数据,在生成长视频时具有优势。例如,Google的VideoPoet集成了多个视频生成功能,展示了Transformer在视频生成上的潜力。然而,Transformer的完全注意力机制导致处理高维信号时成本过高,因此研究者提出了窗口注意力潜在Transformer(WALT)等优化方法。
应用案例
- Animate anyone:基于扩散模型+Controlnet等技术,生成视觉上一致、动作上可控且时间上连贯的动画角色。
- DomoAI:将真人视频转化为动漫,结合风格迁移等技术实现。
- AI视频换脸:基于深度学习技术实现人脸检测、特征提取、人脸转换等过程。虽然技术成熟,但使用风险较大。
未来展望与挑战
未来,AI视频技术将朝着更高清晰度、更高一致性和更强可控性发展。同时,Transformer与Diffusion Model或将并存,共同推动AI视频技术的发展。然而,技术挑战依然存在,如提高生成视频的视觉质量、保持人物一致性以及增强可控性等。随着技术的不断进步和资金的持续投入,AI视频技术有望在未来几年内实现更大的突破和飞跃。让我们共同期待AI视频的GPT时刻的到来!
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com