微软小冰:全双工语音对话详解

AI百科3个月前发布 快创云
60 0

  讲师 | 周力

  近日,微软小冰第六代发布会上正式宣告了其全新共感模型的上线,并启动了一项融合文本、全双工语音与实时视觉的新感官的公测。这一新技术能够实时预测人类即将表达的内容,并生成相应的回应,同时控制对话节奏,为长程语音交互的实现铺平了道路。基于这项技术的智能硬件设备无需用户每轮交互时重复唤醒,仅需一次唤醒,便可轻松实现连续对话,使人与机器的沟通更加接近自然的人类交流。

  在公开课中,微软小冰全球首席架构师及研发总监周力博士详细介绍了微软小冰在全双工语音对话领域的最新成果,以及其在智能硬件上的运用和未来可能面临的技术挑战。

公开课速记整理

  首先,周力博士介绍了微软小冰在全双工对话上的部署。早在2016年7月,他们便与有信IP电话合作,通过网络电话实现了直接对话。此外,在北京科技馆等地的小冰电话亭也允许用户进行网络电话交流。2017年6月,微软小冰与小米合作,在米家APP中推出了可接电话、控制智能家居的助手。2018年1月,与小米和Yeelight公司共同推出了Yeelight智能语音盒,集成了小冰的全双工语音助手功能。最后,小冰还与喵驾车载系统对接,并与三大运营商合作,实现了直接给用户打电话的功能。

  接着,周力博士解释了全双工的定义及其与现有语音助手的区别。全双工并非人工智能时代的产物,而是一个通信术语,指的是实时的、双向的语音信息交互。与之对应的半双工,如步话机,只允许一方在某一时刻说话。全双工的一个重要应用是电话,而与之相比的智能音箱和手机上的语音助手则多采用单轮或多轮交互模式。

  周力博士还提到了全双工技术的三大特征:边听边想、节奏控制和复杂的对话引擎。在全双工环境中,语音识别不再等待一句话说完,而是随时进行预测和思考。节奏控制变得尤为重要,因为AI需要与用户进行实时、流畅的对话。此外,全双工对话引擎需要具备强大的上下文理解和动态音量识别能力。

技术细节与挑战

  全双工语音对话的实现需要至少六个模块:连续的语音识别、语言对策、对话引擎、文字到语音的转换、每轮控制器和节奏控制器。通过连续识别和语言预测,AI可以更快地给出回应,提高交互的自然度和流畅度。节奏控制则通过建立一个音频池子来保证稳定的输出。

  周力博士还介绍了全双工中的非对称动态回复技术,包括铺垫回复、意图-执行回复和递归回复等。这些技术使得人机交流更加复杂和灵活。

用户体验与未来展望

  全双工技术为用户带来了更加自然和流畅的交互体验。根据后台数据,即使机器的回答速度仅快100毫秒,也能显著提高用户愿意与机器人进行更长时间对话的意愿。未来,全双工技术将在更多场景中得到应用,如公共场合、家庭场景和车载场景等。结合视觉感官,未来的交互设备将更加智能化和人性化。

问答环节

  在问答环节,周力博士回答了关于小冰的技术细节、预测模型的算力要求、全双工的定义等问题。他提到小冰在全双工实现中使用了GRU而非LSTM,因为GRU计算更快且成本更低。此外,他还解释了如何通过声纹识别和回声消除来过滤AI自身的音频。关于情感判断和智能完善度的评估,他指出这需要一个复杂的共感模型和多轮对话的能力。

  公开课最后,周力博士推荐了在小米Yeelight语音助手盒子中体验全双工电话功能的方法。此外,他还提到了RTP数据压缩技术在高效传输中的应用。本次公开课为听众提供了对全双工语音对话技术的深入了解及未来发展方向的展望。

© 版权声明

相关文章