数字人包含哪些生成式AI技术?上交最新「基于神经网络的生成式三维数字人研究综述:表示、渲染与学习」

AI百科2天前更新 快创云
3 0

  随着人工智能技术的飞速发展,计算机视觉与图形学等领域的交叉融合正引领着一场数字人生成技术的新革命,人类进入“元宇宙”等数字空间的梦想正逐步成为现实。面对大规模三维数字人的生产需求,传统图形学建模过程繁琐且周期冗长,阻碍了虚拟数字人的普及与应用。而利用生成式人工智能技术生成高拟真、规模化的虚拟数字人正逐渐成为研究热点。本文旨在从生成式模型的视角对数字人技术进行系统性梳理,并总结其中的三个关键步骤:表示、渲染与学习。随后,对显式及隐式的表示方法进行总结,对传统渲染与神经网络渲染的成像方式进行归纳,并概括了相应的模型学习方法。最后,本文对三维数字人的典型应用进行分析,并对当前挑战与未来发展方向进行总结和展望。

引言

  “元宇宙”的概念最早起源于1992年的科幻小说《雪崩》,在这部小说中,人类通过虚拟化身进入数字空间并相互交流。如今,随着计算机视觉与图形学技术的发展,“元宇宙”已经走到了互联网数字经济发展的最前沿,不再是遥不可及的梦想。虚拟数字人作为“元宇宙”的“原住民”,是“元宇宙”技术的核心与基石。为了在“元宇宙”中产生沉浸式的体验,虚拟数字人不仅要有逼真的外观,还要实现肢体动作和语言表达的流畅自然。同时,由于人类天然拥有社会属性,交互能力将是数字人在“元宇宙”中的重要属性。因此,大规模生成高质量虚拟数字人化身,既是人类进入“元宇宙”等虚拟世界的基础,也是进一步探索更广阔数字空间的迫切需求。

数字人的概念与发展

  数字人的概念最初起源于医学领域,可追溯到1989年美国国家医学图书馆的“可视人体”计划。本文所讨论的数字人技术更为宽泛,指运用数字技术创造的、拥有数字化表现形式的虚拟人物。这些数字人可以以二维或三维形式呈现。早期的虚拟数字人形象以平面动漫偶像为主,并不涉及三维建模等复杂流程,因此形象的立体感与真实度受到限制。随着计算机图形学技术的发展,三维建模与渲染技术快速进步,引领了数字人的研究趋势。一些顶尖的科研机构和商业团队已经能够生产高拟真的虚拟数字人,并成功应用于虚拟偶像生成、影视角色制作、真人化身重建等领域。然而,基于传统图形学的三维数字人建模过程复杂且只能定制化生产,无法满足大规模数字人的生产需求。近年来,随着人工智能和神经网络的发展,生成式人工智能在图像生成、语言交互等方面取得了巨大进展。生成式数字人指使用生成式人工智能技术创造数字人的方法,主要以数据驱动的方式学习真实的数据分布并生成新的样本表示和渲染。生成式人工智能技术极大简化了三维数字人建模流程,提升了模型的真实感,展现出巨大的发展潜力。

生成式三维数字人建模流程

  构建一个完整的生成式三维数字人模型主要包括三个步骤:模型表示、渲染与学习。首先,需要确定三维数字人模型的表示方式,常见的表示方式可以分为显式表示和隐式表示两种形式。显式表示一般直接给出满足条件的所有元素的集合,如点云包含三维空间中点的位置,而多边形网格则包含顶点位置及其连接关系等信息。由于传统的渲染管线已经能够成熟地对数字人的显式表示(尤其是基于多边形网格的表示)进行高效处理,因此在游戏、影视制作等工业应用中主要使用显式表示模型。然而,显式表示的精细程度会受到模型分辨率的限制。与此对应的隐式表示仅需给出对于三维空间的某种约束,如符号距离函数、水平集等。随着深度学习的发展,越来越多的方法使用神经网络来逼近隐式函数并恢复出数字人的精细几何与纹理。隐式表示作为一种更加灵活的表示方式,使得数字人模型能够突破空间分辨率的限制,正逐渐成为研究热点。

  第二个重要步骤是渲染,即将三维数字人模型映射到二维图像的过程。在真实世界中,光线在物体表面发生反射进入人眼形成图像。由于真实世界的复杂性难以对每一条光线进行精确追踪,因此图形学中的渲染过程一般是对物理世界成像原理的模拟和简化。以人脸为例,一种经典的处理方式是将人脸分解为本色图和反射图。近年来,神经网络渲染技术将数据驱动的神经网络与物理规律约束的渲染管线相结合,极大提升了渲染的真实感并成功应用到数字人生成流程中。

  最后一步是模型学习。不同的数据类型会造成学习方式的差异。如使用三维扫描数据对于网格等显式表示模型需要先进行配准然后学习;而对于隐式表示模型则可以直接从原始扫描数据学习。由于三维扫描依赖专业设备且成本高昂难以构建大规模数据集覆盖不同人种、年龄、性别等变化因此主要从二维图像数据中学习三维数字人模型也是重要研究方向之一。为了解决二维图像缺乏三维几何信息的局限性现有方法主要从多视角学习结合三维几何先验自监督学习等方式为二维图像添加三维几何或语义约束并使用神经网络学习数字人的生成模型。

数字人模型表示方法

  本节讨论三维数字人模型的表示方法包括基于显式表示和隐式表示的数字人模型。基于显式表示的数字人模型通常使用多边形网格进行表示利用大量扫描数据通过统计学或深度学习的方法得到先验模型从而通过低维变量控制复杂的三维数字人为高效规模化地生成三维数字人奠定基础。而基于隐式表示的数字人模型使用一个连续函数来表示数据并通过深度神经网络来逼近该复杂函数从而建立具有可控性的隐式数字人生成模型。对比来看显式表示较为直观且易于与现有图形学渲染管线兼容但精细度受分辨率影响;而隐式表示则不再与空间分辨率耦合具有更高的灵活性但存在表示不够精细渲染速度慢等缺点但面对具有明确拓扑结构的几何体时利用显式的拓扑结构来约束和优化隐式表示将有望规避这些缺点。

数字人渲染方法

  渲染是指将三维模型根据观察条件(方向、距离等)进行采样计算并生成二维图像的过程具体计算方法由渲染目标三维模型的表示存储形式决定因此数字人渲染可根据其表示形式采用与之对应的渲染方法。传统图形学渲染方式主要针对显式记录的三维模型而神经渲染则主要针对隐式表示的数字人通过深度神经网络进行采样计算并将结果以图像或视频形式呈现本节将对这两类渲染方式进行讨论。

数字人模型学习方法

  本节讨论生成式三维数字人的模型学习方法包括对数据集的获取与处理以及生成式三维数字人显式表示模型与隐式表示模型的学习方法等如图7所示:

数字人应用

  经过完整的生成式三维数字人建模流程后生成模型将学习到数字人的先验信息针对模型进行相应微调即可应用到下游任务中包括:1)数字人重建:从图像或视频中恢复人体和人脸的三维几何形状以及对应的外观信息实现真人与虚拟数字人的一对一数字化映射;2)数字人驱动:根据真人的行为驱动数字人模型产生相应的变化;3)数字人交互:实现数字人与环境及数字人之间的交互等。这些应用为虚拟数字人在电影、游戏及“元宇宙”等场景中的广泛应用奠定了基础。

现有挑战总结与未来发展趋势展望

  尽管生成式数字人在表示形式、渲染方式和学习方法等方面取得了显著进展但仍面临诸多挑战如基础理论细节表示高效推理与训练质量评价系统以及工程扩展等问题此外法律与伦理问题也是未来需要关注的重要方面本文最后对生成式数字人所面临的现实挑战进行了讨论并对未来发展趋势进行了展望希望能为相关领域的研究提供有价值的参考和启示。

© 版权声明

相关文章