过去十年,语音AI从实验室走向应用,语音搜索、交互早已融入日常。本文将带您一览达摩院语音AI技术创新全景,感受能听、会说、懂您的语音AI。
当您在家中与智能音箱对话,或使用天猫超市、菜鸟裹裹时,接到机器人打来的配送确认及回访电话,利用淘宝、高德、优酷等App进行语音搜索,听到数字人动听的话语及各种悦耳的视频配音……这些背后,都是语音AI技术的应用。
AI的很多研究方向,都和人的感知相关。如果说计算机视觉对应的是眼睛,语音AI做的就是耳朵和嘴巴——耳朵是语音识别,把语音转成文字;嘴就是语音合成,把文字转成语音。作为人工智能应用的核心技术之一,语音AI在过去十年持续进步,从实验室研究走向了实际应用和价值创造阶段,并不断解锁新场景,将此前做不了、做不好的技术变得能做,且体验越来越好。
不仅如此,语音AI技术已经开始挑战并解决一系列更难的应用课题。正如Google voice search解锁了手机上的语音搜索;Apple Siri解锁了语音助理;Amazon Echo解锁了远场语音交互……达摩院语音实验室判断,下一个语音技术解锁的场景将会是对“人-人”语音交流进行分析,并产生智能,完成对当前“人-机”任务完成式的语音交互的升级。
今天,我们与您分享达摩院语音AI技术创新全景,包括语音识别声学模型和基础框架、说话人区分、语音合成声学模型和声码器、口语语言处理、联合优化的声学前端等多方面的研究和应用进展。一起感受能听、会说、懂您的语音AI。
在语音识别场景下,拾音质量是一个很关键的因素。早期桌面语音听写的时代,通常需要戴一个耳麦讲话;现在手机可以在稍远距离准确识别,智能音箱又可以做到更大距离。但这些的前提是周边不会有太多的噪声,而且这些场景都是单人的,都是跟机器去完成一个单独的任务——要么是听写,要么是想点一首歌。但如果加了很多别的因素,准确率就会逐渐下降。说话场所的不同、空间大小的差异、说话人的多寡、情绪语种语速的交杂,各种声音在空间内不断反射产生混响,再加上环境本身带来的噪音,对机器识别来说是极大的挑战。
对我们人类来说,“谁在什么时间说了什么话”非常好识别,因为我们不仅能靠灵敏的耳朵区分不同音色、判断声音方位,还能看到说话人的肢体在动,同时大脑不断用知识储备分析着话语。但对于语音识别而言,如何使机器也具备这些智能呢?
UNIVERSAL-ASR语音识别基础框架
过去几十年,基于混合框架的语音识别系统一直是学术界和工业界主导框架,其系统包括独立优化的声学模型(Acoustic Model, AM)、语言模型(Language Model, LM)、发音词典(Lexicon)和解码器。系统构建流程复杂。
近几年,端到端语音识别(End-to-End, E2E)成为了学术研究热点。端到端语音识别通过一个网络建模语音识别系统,不仅简化了系统构建复杂度,而且通过联合优化预期可以获得更好的建模效果。阿里巴巴语音实验室结合上一代DFSMN网络结构和学术界流行的Transformer创新性提出了SAN-M网络结构,并且提出了Streaming Chunk-Aware Multihead Attention(SCAMA)流式Attention机制构建了新一代的端到端语音识别框架,显著提升语音识别系统性能。
中英自由说
近几年来,端到端语音识别(End-to-End ASR)技术在单语种任务上已经取得了比较好的效果。通过UNIVERSAL-ASR统一离线和流式识别系统架构进一步提升了流式场景的识别率,但在多语种混说(Code-Switch)场景下效果还不是很理想。比如中英文混说——“借你的ipad给我看下paper”,当突然切换到另一个语种时识别率会发生大幅下降。拿中英文识别来说,效果不理想的很大原因是中英文混说数据比较稀缺,标注成本也比较高。中/英单语数据的直接混合训练对纯中文和纯英文的识别效果会产生一定的负面影响。如何利用海量的中/英文单语种数据和少量的中英文混说数据提升中英自由说免切换识别效果成为工业界和学术界的研究热点。
针对中英文自由说识别问题,我们借鉴了混合专家系统(Mixture of Experts)的思想。在端到端语音识别模型中,对中文和英文分别设计了一个子网络,每个子网络被称为专家,最后通过门控模块对每个专家网络的输出进行加权。同时为了减少模型参数量,中、英文子网络采用底层共享、高层独立的方式。通过这样的方式使模型在中文、英文、中英文混说场景下都能取得比较好的效果。进一步我们结合达摩院语音实验室自研的SAN-M网络打造了新一代端到端中英自由说语音识别系统。在不需要语种信息的前提下用一个模型保证纯中文和纯英文相对于单语模型的识别性能基本不降并大幅度提升中英文混说场景下的识别性能。
方言自由说
通用的中文语音识别系统对普通话的识别准确率已接近人类水平。但当一个中文识别系统遇到重口音或者方言的时候识别效果会产生灾难性地下降。主要的原因是方言的发音和普通话有差异会出现同音异字的情况。所以针对每一种方言我们都会单独训练一个方言模型这样又会导致我们需要维护多个方言模型同时无法通过一个模型识别多种方言且有的方言数据量稀疏不利用其他方言数据中的共有信息而单独训练这个方言模型的效果不尽人意。针对这个问题我们借鉴了中英文自由说模型的方案对每一种方言设计一个专家网络同时考虑到每种方言的发音相似性我们增加了一个共享的专家网络来学习方言之间的共性。和中英文自由说模型类似最后通过一个门控模块对每个专家网络的输出进行加权。考虑到方言种类比较多每个专家网络通过简单的两层线性层来建模。进一步我们结合达摩院语音实验室自研的SAN-M网络打造了新一代端到端方言自由说语音识别系统。在不需要提供方言id的情况下用一个模型识别十四种常用方言并且保证纯中文相对于单语模型的识别性能基本不降。
鸡尾酒会问题(Cocktail Party Problem)
鸡尾酒会问题是语音识别领域困扰人已久的学术难题。鸡尾酒会问题是指在多人自由交谈的场景需要高精度识别出每个说话人所讲的内容。当前通用的语音识别系统可以高精度的识别单个说话人的语音但当场景中同时存在多个说话人自由交谈时候语音识别系统识别性能就会出现明显的下降。会议场景是一个典型的多人自由交谈的场景探索鸡尾酒会问题的工业级解决方案对于解锁会议场景的语音AI具有重要作用。针对鸡尾酒会问题语音团队从语音识别基础框架上文已阐述M2MeT国际挑战混叠语音检测技术和说话人日志技术等方面展开了技术探索。