机器之心报道
编辑:Panda W
生成式AI已经成为互联网的一个重要内容来源,如今你可以看到AI生成的文本、代码、音频、图像以及视频和动画。本文将介绍动画领域使用的生成式AI技术,包括简要介绍、示例、优缺点以及相关工具。作者aulerius,一位来自立陶宛的博主和动画师,他提到:“作为一位动画制作者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。”本文的目标读者是任何对这一领域感兴趣的人,尤其是不知如何应对AI领域新技术发展的动画师和创意人士。需要注意的是,尽管视频风格化也是相关技术,但本文基本不会涉及这方面。
本文结构如下:
图像生成
图像生成技术是指使用AI模型生成图像的技术,这些AI模型的训练使用了静态图像。将生成的图像用作素材,可以将任意AI应用生成的静态图像用作2D剪贴画、数字处理、拼贴等传统工作流程中的素材,或者用作其他AI工具的资源,例如提供给图像转视频(image2video)工具来生成视频。除了作为图像和素材来源,这类技术还需依赖剪切和图像编辑等常用技能。短片《Planets and Robots》中使用了数字剪贴画将生成的AI图像动画化,其中的配音也是基于脚本由LLM生成的。
优点:
- 创造性工具
- 高效素材生成
缺点:
- 需要图像处理技能
- 生成结果可能不符合预期
免费工具(任何生成图像模型或应用):
- Midjourney
- DALL-E
插件和附加组件:
- Photoshop插件
- GIMP插件
此外,Hugging face space上还有一些免费的演示:https://huggingface.co/spaces
付费工具(任何生成图像模型或应用):
- Various commercial AI platforms
逐帧生成图像
这类技术以一种相当程度上立足动画根源的精神来使用生成式扩散图像模型,以逐帧方式生成动作序列,类似于传统动画制作的绘制再拍摄过程。关键在于这些模型在生成每张图像时没有时间或运动的概念,而是通过某种机制或各种应用或扩展来帮助实现某种程度上的动画,从而实现所谓的“时间一致性”。这些技术得到的动画往往会出现闪烁现象。尽管许多用户会努力清理这些闪烁,但动画师却会把这视为一种艺术形式,称为boiling。最常用的是Stable Diffusion等开源模型以及基于它们构建的工具。用户可以使用公开的参数来配置它们,还可以将它们运行在本地计算机上。相比之下,MidJourney工具的模型没有公开,主要是为图像生成设计的,无法用来生成逐帧动画。动画也可能使用Stable WarpFusion制作,涉及图像转图像的工作流程,通过一些扭变将底层视频输入变成动画。视频作者:Sagans。用逐帧图像制作动画通常需要混合使用以下工具:After Effects、Moho、Blender等。
一步到位的工具(文本转图像)
新技术支持直接通过文本prompt和参数调配来生成动画:在每张生成的图像帧上逐渐进行参数插值,以得到过渡动画。这里的参数可能包括与模型相关的设定,如文本prompt本身或底层的种子(隐空间游走)。Prompt编辑法通过逐渐改变权重来创建动画过渡。使用一张起始图像,然后使用一个稍有不同的prompt,使其逐帧变化成其他形态。这种方法通常结合图像到图像的转换技术来实现。运动合成则旨在“想象”后续生成帧之间的运动流,然后使用这个运动流来逐帧执行变形处理,从而基于I2I循环注入有机运动。这通常需要依赖在视频的运动估计(光流)上训练的AI模型。其他技术还包括图像修复和变形技术搭配使用、采用多个处理步骤或甚至捕获模型训练过程的快照等先进技术。例如,Deforum有很多可供用户调控的地方。使用SD-CN Animation制作时,会使用一种在生成帧之间产生幻觉运动的独特方法。起始图像只是作为起点,没有其它用途。此外,还可以使用某个来源的输入来助力生成的帧和所得的动画结果:这类方法范围很广,做法是使用输入视频来混合和影响生成的序列。这些输入视频通常分为多个帧,作用通常是风格化现实视频。在现如今的风格化跳舞视频和表演热潮中,这类技术常被用于实现动漫造型和性感体格。但你可以使用任何东西作为输入,比如你自己动画的粗略一帧或任何杂乱抽象的录像。在模仿pixilation这种定格动画技术和替换动画技术方面,这类技术有广泛的可能性。在每帧中,输入帧要么可以直接与生成图像混合,然后再输入回每个I2I循环,要么可以采用更高级的设定附加条件的做法,比如ControlNet。Deforum搭配ControlNet条件化处理的混合模式显示了一个例子(左图为原视频)。遮掩和背景模糊是分开执行的,与这项技术无关。“光流”是指视频中估计的运动,可通过每帧上的运动向量表示,其指示了屏幕空间中每个像素的运动情况。当估计出变形工作流程中的源视频的光流后,就可以根据它对生成的帧执行变形,使得生成的纹理在对象或相机移动时也能“粘黏”在对象上。Deforum的混合模式支持这种技术搭配各种设置使用。为了得到闪动更少的结果,也会增加cadence(节奏),使得变形的效果更好。遮掩和背景模糊是分开执行的,与这项技术无关。通过变形工作流程完成的条件处理也可能直接关联3D数据,这可以跳过一个可能造成模糊的环节,直接在视频帧上完成处理。例如,可以直接通过虚拟3D场景提供openpose或深度数据,而不是通过视频(或经过CG渲染的视频)估计这些数据。这允许采用最模块化和最可控的3D原生方法;尤其是组合了有助于时间一致性的方法时效果更佳。这可能是现有技术与用于VFX的AI技术之间最有潜力的交叉领域。https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm有一个广泛应用的工具也使用了该技术,可以简化并自动化用Blender生成直接适用于ControlNet的角色图像的过程。在这个示例中,ControlNet使用手部骨架来生成openpose、深度和法线贴图图像,最终得到最右侧的SD结果。(openpose最终被舍弃了,因为事实证明它不适用于只有手部的情况。)将所有这些技术结合起来似乎有无尽的参数可以调整动画的生成结果(就像模块化的音频制作)。它要么可以通过关键帧进行“调度”并使用Parseq这样的工具绘制图形;要么可以与音频和音乐关联得到许多随音频变化的动画。只需如此你就能使用Stable Diffusion帮你跳舞了。
优点:
- 快速原型制作
- 创意无限
缺点:
- 控制难度高
- 硬件要求高(GPU)
免费工具:可在A1111webui中使用工具;开源工具如DeepAI等提供的免费服务;免费的Google Colab笔记本(功能有限)等;免费的Adobe Photoshop AI插件等;免费的Adobe After Effects AI插件等;免费的Blender插件等;免费的ZBrush插件等;免费的Maya插件等;免费的3ds Max插件等;免费的Houdini插件等;免费的Unreal Engine插件等;免费的Unity引擎插件等;免费的C4D插件等;免费的Revit插件等;免费的SketchUp插件等;免费的SolidWorks插件等;免费的AutoCAD插件等;免费的Blender AI插件等;免费的人脸识别软件OpenFace等;免费的视频编辑软件OpenShot等;免费的音频编辑软件Audacity等;免费的在线PDF编辑软件Smallpdf等;免费的三维建模软件Blender, SketchUp, Tinkercad, Fusion 360, 3ds Max, Maya, ZBrush, Houdini, Revit, SolidWorks, AutoCAD等均可尝试使用本地硬件或远程计算机上的免费服务进行创作与体验探索实践尝试与挑战创作任务;如果条件允许的话还可以考虑使用公共云服务如AWS提供的免费试用版进行创作实践探索与挑战创作任务!具体请根据自身实际情况选择合适的工具进行创作实践探索与挑战创作任务!同时也要注意保护自己的版权哦!不要侵犯他人的知识产权哦!希望这篇介绍能够帮助您更好地了解并应用这些神奇的生成式AI工具来创作出更加精彩绝伦的作品吧!祝大家玩得开心哦!