全年无休,业务精湛,挑战普通话绕口令?这不仅仅是挑战,更是创新!
近期,一段朱广权与AI哑语手势主播的短视频在网络上迅速走红。视频中,朱广权以“地球不爆炸,大家不放假”的敬业精神,对AI主播进行了一场绕口令式考验。而这位“长相、业务双在线”的AI主播,凭借流畅、精准的动作,完美接住了所有挑战,令朱广权也不禁赞叹“反应迅速、精彩纷呈”。
这位广权老师的新搭档并非真人,而是由百度云智能打造的全球首个AI哑语手势主播。在即将到来的风雪盛典中,她将作为AI核心,为2780万听力障碍人士提供24小时不间断的哑语手势服务,实时传递丰富的赛事资讯。
那么,哑语手势数字人与普通数字人究竟有何不同?其制作难点和未来发展前景又是怎样的呢?
要理解哑语手势数字人,首先要了解哑语手势。简单来说,哑语手势可以看作是一种“小语种”,为了让更多人理解这种“语言”并实现交流,需要建立一套通用的“翻译”规则。与方言类似,不同地区的哑语手势在表达上存在差异。例如,“钱”这个词,有的地方做捻纸币的动作,有的地方则用大拇指、食指揉成小圈。这就需要为哑语手势建立一套如普通话般的通用交流标准。
同时,哑语手势会在日常对话的基础上,进行词序的更改和语言的精简。例如,“我想回家”在哑语手势中会按照“家”、“回”、“我觉得”的顺序用三个动作表达。而“3号我想冻哭东北地区青海地区”在哑语手势中会被精简为“3号东北地区内蒙古自治区”。
手语翻译并非简单的文字转换,而是涉及姿势、表情、嘴型三个阶段的全面配合。当一个动作包含多个意思时,就需要表情和嘴型的充分配合。例如,“你吃饭了吗?”这句话中,“用餐”有实际的手型动作,但“了么”如何表达?就需要配合“表情”:眼睛睁大,眉梢皱一下。
这些例子充分说明,只有真正了解哑语手势,才能为数字人建立通用的“翻译”规则,打造听力障碍人士用得着、用得好、用得便捷的“真·哑语手势数字人”。
目前,手语数字人的现状是玩家众多但缺乏真正敢于尝试的。尽管有字幕,但为什么还需要哑语手势来传递信息呢?在与哑语老师的交流中,百度云智能团队了解到,由于听觉与学习文本的关联性,导致残障人士在阅读和理解内容上存在障碍。相比文本,他们更能通过手语正确理解和感知日常信息,且手语更加亲切。对于屏幕一角的人来说,这简直就是“公平享受资讯的世界”。
遗憾的是,目前市场上许多看似“琳琅满目”、“动作智能”的哑语数字人,实际上听力障碍人士是听不懂的。一方面是因为许多生产商为了追求效率直接采用“动作中文语料”,忽略了哑语手势的词序调整、语言精简等特性;另一方面是有些生产商为了显示动作的流畅性没有对手势间的连接进行系统性训练而只是简单加速动作连接导致“鬼畜”的哑语手势让听力障碍群体不得不连连摇头。
因此要想打造高品质的手语数字人并不是在原有数字人基础上简单调整做加减法而是要同时具备语音识别、视觉技术、自然语言处理等技术能力。而百度作为国内唯一拥有最完整AI技术布局的企业其语音、视觉、NLP、知识图谱等关键技术均处于全球领先水平这也为AI手语主播的“培养”奠定了坚实的基础。
经过2个月的艰苦努力一群工院直爽boy的浪漫派诞生了!在百度云智能团队看来打造AI手语数字人不仅是技术上的创新与探索也是价值从善的追寻与奉献。这样的思考方向让团队从一开始就选择了一条艰难但正确的道路。他们始终坚持自然手语语料做就做难而正确的事。
时间紧任务重这意味着技术人员必须全力以赴。百度智能在最短时间内组建了一支主力部队——手语翻译核心团队连通内部各技术部门协同手语词汇学专家幼儿教育专家等制定了一套针对体育盛事直播特殊场景的数据生产方案。同时团队在与手语老师专家的交流中学习了大量专业知识成功融入百度的模型效果和听力障碍群体的体验中。与手语专家团多次举办大会商讨问题解决方案并持续进行技术迭代优化最终成功发布了全球首个AI手语主播。该产品在不到2个月的时间内经历了6次大的版本迭代每次迭代都有显著提升最终从0到1发布并达到了业内领先水平。在这个过程中百度智能团队展现了其卓越的技术实力和对社会责任的高度关注!