面由 AI 生|虚拟偶像“捏脸”技术解析

AI百科3周前发布 快创云
16 0

  2021年,元宇宙概念席卷全球,国内各大科技巨头纷纷加速布局,通过元宇宙赋能不同的应用场景。针对元宇宙的四大核心基础——身份、沉浸感、低延迟、随时随地,ZEGO即构科技基于互动智能的业务逻辑,推出了ZegoAvatar解决方案,将AI视觉技术应用至虚拟形象,实现了业务和技术的无缝对接。

  图1展示了Avatar产品的AI能力矩阵。ZegoAvatar的基础能力包括面部表情随动、语音驱动表情、AI人脸特征识别(AI捏脸)、拍照捏脸等,涉及的AI技术点包括人脸检测、人脸跟踪、人脸关键点检测、头部姿态检测、3D人脸重建、AI特征识别等。

  上次我们讲解了ZegoAvatar的面部表情随动技术解析,今天我们将深入探讨ZegoAvatar中的AI捏脸部分。

  首先,我们来了解一下“捏脸”的概念。捏脸是指用系统设定的元素组合成虚拟角色,定制出个性化的形象,如通过人脸、眉毛、眼睛、发型等元素的重新组合,搭配成一张头像作品。

  2005年,国内首款可以进行捏脸的游戏《完美世界》问世。在游戏中,你可以自定义角色形象,捏出你想要的造型。虽然当时还称为“形象自定义系统”,仅能满足一些简陋的五官替换功能,但这一新奇模式不仅为玩家带来了全新的游戏体验,也为后来游戏中“捏脸”系统的蓬勃发展奠定了基础。

  2013年,《剑灵》B&S普及了捏脸的玩法,并拥有一个优秀的捏脸导入功能,你可以直接将别人的捏脸数据导入你创建的人物中,这意味着捏脸的成本非常低。

  2018年,国内新推出的热门游戏《逆水寒》提供了可调动面部几十个肌肉群的捏脸系统,通过排列组合绽放出无数种可能性。

  关于我们为什么要“捏脸”,可以从审美标准、代入感和个性化三个方面来思考:

  • 审美标准:随着时代的进步,人的审美观和对美的要求不断改变。无论是游戏还是虚拟社交,最重要的无疑是“代入感”,而玩家形象是代入感最直观的体现。因此,一个强大的捏脸游戏能给玩家带来无与伦比的代入感。
  • 个性化表达:捏脸是寄托个性化表达的载体之一。如果你想以高冷酷炫的外表示人,就给自己捏一个霸道总裁脸;如果你希望呈现温柔可人的一面,就塑造一个柔美端庄的虚拟形象。
  • 社交名片:当下很多玩家的注意力已经从“炫实力”转移到了“炫酷”、“炫特色”上。一张独具特色的虚拟角色面孔在虚拟世界中已成为社交的第二张名片,成为与虚拟世界连接的桥梁。

  接下来,向大家展示一下ZegoAvatar的拍照捏脸效果(图2)。需要注意的是:

  1. 实验数据来源均为内部收集和付费收集获得,不涉及用户隐私。
  2. 使用Avatar SDK功能时,需要本地处理面部特征值信息、声音特征信息以实现捏脸、表情随动、声音驱动功能场景。您需要授权我们使用摄像头、麦克风权限,关闭后仅影响对应功能,不影响应用其他功能。我们仅会在您的本地设备中离线处理相关面部特征值信息、声音信息,不会上传、后台存储或与第三方共享该种信息。

  在ZegoAvatar的技术方案中,拍照捏脸是通过送入一张人脸照片来得出该照片中人的性别、年龄、发型、脸型等信息,从而生成与该头像最为契合的虚拟形象。与传统的捏脸方式不同,ZegoAvatar拍照捏脸采用了AI技术,可实现自动生成自己的虚拟形象,让每个人的虚拟形象不再千篇一律。下面将详细解读ZegoAvatar捏脸算法的大致流程与整体架构。

  AI捏脸涵盖的主要技术有:人脸检测、人脸对齐、性别分类、发型分类及眉毛、眼睛等五官的属性分类等。通过对输入图片的分析获取对齐后的人脸图片,分为仅含人脸的图片(图片人脸占比100%)和包含完整头发信息的图片(人脸占比25%左右)。将对齐后的人脸图片送入性别分类模型中得出性别;通过判断性别选择相应的捏脸推理模块,从而得到虚拟形象编码(含是否有胡子、脸型、发型等信息);最后通过虚拟形象编码生成定制化的虚拟形象(图3)。

  为了得到最好的捏脸效果,在实际研发过程中需要解决以下问题:如何保证结果准确?不同用户在不同使用场景的鲁棒性如何保证?根据数据采集模块得到人脸属性数据并通过数据矫正和增强后训练得到AI表情模型具体分为以下几个部分:

  1. 数据采集:针对业务需求购买和收集了约102万人脸数据并经过严格标注和验收;为此开发了一套可用于人脸属性的数据标注软件获取人脸的性别、头发、胡子等数据。
  2. 数据管理:对难例在数据集上进行细分尤其是对面部光线过暗、图像质量低等情况的数据进行分类管理在训练时对其进行不同的数据处理如样本均衡等。
  3. 数据增强:针对落地场景设计了定制化的数据增强流程丰富了训练数据的模式。

  在捏脸推理模块中的网络模型搭建上通过试验结果对比验证设计一种性能和精度表现都非常不错的网络结构主要包括提取图像特征的骨干网络和输出相应虚拟形象编码的输出头(图4)。网络结构示意图显示我们尝试了Ghostmodel、Mobilenet等思想的网络结构和训练策略在反复测试验证下最终的骨干网络由CBA等组成(图5)。其中骨干网络和输出头模块的具体结构如下(图6)。Ghost Bottleneck通过“廉价”的操作DepthwiseConv获取“冗余”的特征图来实现模型的推理提速并通过Bottleneck思想将特征图的通道进行增加和减少进一步减少了参数量(图7)。TransformerMobileVit Block可以通过较少的参数获取各个特征图中局部的表征信息和特征图对其他特征图的全局表征信息通过特征之间相互“参照”使得特征的表达更加准确(图8)。输出头采用的特征共享的结构使具有相关性的子任务之间相互起促进作用(图9)。就这样搭建出了我们完整的网络结构(图10)。设计不同的任务分支并针对类别进行细分还采用的共享特征的机制利用任务之间的相关性辅助目标任务学习。损失函数为在实际训练时我们不知道各个子任务之间的影响是否都是有效的为消除多任务之间存在竞争关系我们通过调整梯度使每个task的训练率相同从而可以自动平衡多任务loss function中的权重。总的来说我们大致从以下几个方面进行优化:从网络设计:捏脸算法需要从很多维度提取特征进行细节分析。为了减少模型的消耗很多模型都采取多任务辅助监督训练。从数据处理:会根据实际需求采用不同的数据增强;在某些任务中还使用重构图像的策略。从损失函数:损失函数的设计能够直接影响网络收敛的好坏不同任务的损失函数不同但其本质就是通过最小化损失函数求得全局最优。会具体任务定义不同的损失函数或者在公开损失函数中根据需求加惩罚项或约束。由编码结果直接生成虚拟形象可能会出现脸型与五官或者发型“不搭噶”的情况如何保证定制虚拟形象拥有更高的颜值也需要依赖整个团队的配合。一方面开发同学在虚拟形象的渲染效果上不断的调试优化在肤色的调节阴影的渲染毛发的渲染高光效果上做了很多尝试;另一方面设计同学为虚拟形象设计的各种贴图素材构建了完备的素材库例如眉毛类型眼睛形状睫毛样式脸型肤色等。在技术不断钻研和美学角度审视的碰撞下这样才使得ZegoAvatar最终的虚拟形象不仅有很高的精细度还提供了十分丰富的捏脸自由度。下面从3个方面简单表达捏脸环节的效果:(1)从性别上分析性别识别是捏脸最基础也是最关键的环节因为角度光照等外界因素很容易识别错误一旦性别识别错误后面的捏脸程序就会“越跑越偏”。为了平衡准确率和在移动端实时性训练过程中尝试了很多tricks我们的性别识别在不同国籍不同年龄不同场景不同表情组成的5万测试集上准确率能达到96.7%。(2)从人脸外观特征上分析性别识别结果之后人脸上的外观特征识别尤为重要比如是否带眼睛是否有胡子胡子分布在哪里。这些人脸上明显的外在特征如果识别不准确捏出来的效果就会非常假。我们人脸外观特征模型包括眼睛胡子和胡子分布的识别各维度的准确率分别为眼镜99.5%、胡子96.2%、胡子上下左右分布95.0%。(3)从头发维度上分析头发分析也是捏脸过程非常重要的一环并且头发多个维度都具有多样性在头发分析中如果识别错其中一个维度整体效果就会大大打折扣。我们的头发分析模型囊括了5种长度9种刘海2种捆扎方式还有头发区域4种维度的信息能够给到渲染模块非常细粒度的头发特征从而渲染出非常逼真的头型。ZEGO即构科技根据AI产业发展变化抓住适合自己技术能力的垂直应用场景围绕虚拟社交和在线KTV场景核心问题挖掘为用户打造个性化的虚拟形象。在制作AI捏脸时走了一些弯路后来我们从围绕市场玩家的关注热点又在整个团队的不断探索和验证积极寻找突破口下我们的捏脸质量也越来越高。莎士比亚在《仲夏夜之梦》中借人物之口说过“想象的东西往往是虚无缥缈的在诗人的笔下它们可以有形有固有的实质也可以有名字”。ZEGO Avatar就如同莎士比亚笔下的诗人一般为每个人定制个性化的虚拟形象成功的开启了进入元宇宙时代的入口。ZEGO即构科技也将随着相关领域的技术成熟将打造出赋予新的内涵和意义的数字人从技术底层为内容开发者赋能将虚拟技术更直接更便捷更高效的交付终端用户。未来即构将打造可通过AI模型直接得出捏脸系数真正做到千人千面!

© 版权声明

相关文章