人工智能(AI)已经让合成语音从简单的机器人呼叫和早期的GPS导航系统,进化到智能手机和智能扬声器中虚拟助理的悦耳声音。对于各行各业来说,使用定制的最新语音AI技术从未如此便捷。
语音AI正被用于赋能虚拟助理、扩展呼叫中心、使数字化身更具人性化、增强AR体验,并通过自动化临床记录为患者提供无摩擦的医疗体验。根据Gartner Research的研究,到2023年,客户将倾向于使用语音接口启动70%的自助式客户互动(2019年为40%)。对个性化和自动化体验的需求只会持续增长。
本文将探讨语音AI的工作原理、语音识别技术的好处,以及语音AI用例的示例。语音AI将AI应用于基于语音的技术:自动语音识别(ASR),也称为语音对文本和文本对语音(TTS)。例如,虚拟会议中的自动实时字幕显示,以及为虚拟助理添加基于语音的界面。
通常,基于语言的应用程序,如聊天机器人、文本分析和数字助理,会将语音AI与自然语言处理(NLP)一起作为大型应用程序或系统的一部分。更多信息请参阅对话AI词汇表。
图1展示了语音AI应用。
语音AI拥有诸多优势:
- 高可用性:语音AI应用程序可以在人工代理时间之外响应客户呼叫,使联络中心能够更高效地运行。
- 实时洞察:实时记录被指定为以客户为中心的业务分析的输入,如情绪分析、客户体验分析和欺诈检测。
- 即时可扩展性:在高峰时段,语音AI应用程序可以自动扩展,以处理数万个客户请求。
- 增强体验:通过减少等待时间、快速解决客户查询并提供可定制语音界面的人性化交互,语音人工智能提高了客户满意度。
- 数字可访问性:从语音到文本再到文本再到语音应用,语音AI工具正在帮助有阅读和听力障碍的人从生成的语音和书面文本中学习。
今天,语音AI正在彻底改变金融、电信和统一通信即服务(UCaaS)等全球最大行业。图2展示了ASR技术用于实时通话转录。
从深度学习、基于语音的技术起步的公司以及扩展现有基于语音的conversational AI平台的成熟公司都受益于语音AI。以下是语音AI提高效率和业务成果的一些具体示例。全球约有1000万呼叫中心代理每天接听20亿个电话。呼叫中心用例包括所有以下内容:
- 趋势分析
- 法规遵从性
- 实时安全或欺诈分析
- 实时情绪分析
- 实时翻译
例如,自动语音识别记录客户和呼叫中心代理之间的实时对话,以进行文本分析,然后用于为代理提供快速解决客户查询的实时建议。在医疗保健领域,语音AI应用程序改善了患者与医疗专业人员和理赔代表的联系。ASR自动化了在患者-医生对话和索赔代理信息提取期间的笔记记录。每个行业都有虚拟助理,可以增强用户体验。ASR用于为虚拟助手转录音频查询。然后,文本到语音生成虚拟助手的合成语音。除了使交易情境人性化之外,虚拟助手还帮助视力受损者与非盲文文本、语音障碍者以及儿童进行互动。
语音AI使用自动语音识别和文本到语音技术为对话应用程序提供语音接口。典型的语音人工智能管道包括数据预处理阶段、神经网络模型训练和后处理。在本节中,我将讨论ASR和TTS管道中的这些阶段。图3展示了对话AI应用的语音接口。
为了让机器能够听到并与人类对话,它们需要一种将声音转换为代码的通用媒介。设备或应用程序如何通过声音“看到”世界?ASR pipeline将包含语音的给定原始音频文件处理并转录为相应的文本,同时最小化称为字错误率(WER)的度量。WER用于测量和比较不同类型的语音识别系统和算法的性能。它是由错误数除以正在转录的剪辑中的单词数来计算的。
ASR管道必须完成一系列任务,包括特征提取、声学建模以及语言建模。图4展示了ASR管道。特征提取任务涉及将原始模拟音频信号转换为频谱图,频谱图是表示信号在不同频率下随时间变化的响度的视觉图表,类似于热图。转换过程的一部分涉及传统的信号预处理技术,如standardization和windowing。然后使用Acoustic modeling来建模音频信号与语言中语音单位之间的关系。它将音频片段映射到最可能不同的语音单元和相应的字符。ASR管道中的最后一项任务涉及语言建模。language model添加了上下文表示并更正了声学模型的错误。换句话说,当您拥有声学模型中的字符时,您可以将这些字符转换为单词序列,这些单词可以进一步处理为短语和句子。历史上,这一系列任务是使用生成方法执行的,该方法要求使用语言模型、发音模型和声学模型将发音转换为音频波形。然后,可以使用高斯混合模型或隐马尔可夫模型来尝试查找最可能与音频波形中的声音匹配的单词。这种统计方法在实施和部署的时间和精力上不太准确,而且更加密集。当试图确保音频数据的每个时间步与字符的正确输出相匹配时,尤其如此。然而,端到端的深度学习模型,如连接主义时间分类(CTC)模型和注意序列到序列模型,可以直接从音频信号生成转录本,并且具有较低的WER。换言之,Jasper、QuartzNet和Citrinet等基于深度学习的模型使公司能够创建成本更低、功能更强大、更精确的语音AI应用程序。TTS或speech synthesis管道负责将文本转换为自然发音的语音,这种语音是人工生成的,具有类似人类的语调和清晰的发音。图5展示了TTS管道。TTS管道可能必须完成许多不同的任务,包括文本分析、linguistic analysis和波形生成。在text analysis阶段,原始文本(带有符号、缩写等)被转换为完整的单词和句子,扩展缩写,并分析表达式。输出被传递到语言分析中,以精炼语调、持续时间,并以其他方式理解语法结构。结果,产生spectrogram或mel频谱图以转换为连续的类人音频。我之前介绍的方法是一个典型的两步过程,需要一个合成网络和一个vocoder网络。这是两个独立的网络,用于从文本生成频谱图(使用Tacotron architecture或FastPitch)和从频谱图或其他中间表示(如WaveGlow或HiFiGAN)生成音频的后续目的。除了两阶段方法外,TTS管道的另一个可能实现涉及使用端到端的深度学习模型,该模型使用单个模型直接从文本生成音频。神经网络直接从文本-音频对中训练,不依赖中间表示。端到端方法降低了复杂性,因为它减少了网络之间的错误传播,减少了对单独培训管道的需要,并最大限度地降低了手动注释持续时间信息的成本。传统的TTS方法也倾向于产生更多机器人和不自然的声音,影响用户参与,尤其是面向消费者的应用程序和服务。成功的语音AI应用程序必须启用以下功能:从头开始创建训练有素、准确的深度学习模型既昂贵又耗时。通过在前沿模型发布后立即提供对其的访问,即使是数据和资源受限的公司也可以在其产品和服务中使用高度精确、经过预训练的模型和transfer learning 。要在全球或任何行业或领域部署,必须对模型进行定制以适应多种语言(世界上6500种口语的一小部分)、方言、口音和上下文。一些域使用特定术语和技术术语 。由多个深度学习模型组成的管道必须以毫秒为单位运行推断以实现实时交互精确到300毫秒因为大多数用户在100毫秒左右开始注意到滞后和通信故障在此之前对话或体验开始感觉不自然 。公司需要不同的部署模式甚至可能需要混合使用云内部部署和边缘部署成功的系统支持扩展到需求波动的数十万并发用户 。公司应该能够为其行业和领域实施适当的安全实践例如在本地或组织的云中进行安全数据处理例如可能要求遵守HIPAA或其他法规的医疗保健公司限制数据访问和数据处理 。由于计算基础设施、语音AI算法的进步对远程服务的需求增加以及现有和新兴行业令人兴奋的新用例基于语音AI的产品和服务现在有了一个强大的生态系统和基础设施 。当前的语音AI应用程序在推动业务成果方面功能强大但下一代语音AI应用程序必须能够处理多语言、多领域和多用户对话 。能够成功地将语音AI技术集成到其核心运营中的组织将具备良好的能力根据尚未列出的用例扩展其服务和产品 。