被嫌弃的 AI 语音(一)——不只是因为它像个傻子

AI百科7个月前更新 快创云
67 0

  最近对智能语音的反馈颇多。我发现家中的智能音箱似乎不那么“聪明”:不是每次都能成功响应,而且并非最近的那个设备回应我的呼唤;让它打开客厅大灯,它却点亮了卧室的灯。

  两个月前,我亲历了一次米家服务器的宕机,智能家居全部失灵,中控App里的设备全部下线,使用体验可谓“酸爽”。这次经历让我深刻体会到了人类科技文明的脆弱。

  在GeekCar行业社群里吐槽此事时,朋友们质疑为何小米不准备一套本地的冗余方案。讨论得出的结论竟是:无解。

  于是,我想到了车上的语音助手:驾驶和居家的场景各不相同,面临的问题有何异同?集度概念车提出的全离线语音能否应对离线状态下的操控?车载AI的语音能力在宣传中被一再强调,是营销诉求还是产品力增长点?

  既然都说智能语音好,为何还有那么多人不喜欢它?为了更全面地了解问题的全貌和本质,我约了几位来自汽车行业的朋友,一起聊聊。

  为了保持内容的全面和易读,这个系列将采用还原对谈内容的方式进行呈现。不是正式的专访,交流中也包含我个人的观察和思考。由于涉及很多人的从业经历和个人观点,所以被强烈要求匿名,这次依然称他们为Mr.K。

  第一位Mr.K是一位十分资深的智能座舱产品经理,就职于某家正在造车的头部企业。我和他围绕一系列关于智能语音的优劣展开了讨论。

  借用梁文道先生《八分》节目的口号——不保证成功,但思考更重要。对于从业者来说,不停止思考更为重要。

  以下是部分对谈的实录:

  Mr.K说:“你说这次想聊聊车上的语音,或者智能,我先想到的不是某辆车,而是两个形象。”他提到了《美国队长2》里的AI语音助手和美剧《霹雳游侠》中的车载AI“基特”(KITT)。通过对比这两个形象,他说明当前的车载智能语音与人们期待的智能语音之间仍有很大差距。

  我接着问:“为什么会这样?人们期待的智能是什么?”Mr.K回答:“它要真的像一个助手或伙伴,在车里能在适当的时间给我适当的提醒和建议。通过识别和分析个人的表情、情绪,给出不同的建议等。”

  我们讨论了当前行业的技术水平,发现车载语音的能力大差不差,主要体现在准确率和更精准的理解和执行力上。行业基本上能做到95%到98%的准确率,但人说话时常会get不到对方的准确意图,我们不能对机器要求太高。

  关于如何提高语音覆盖面,Mr.K提到:“这里边的‘人工智能’是先有人工再有智能。”我们靠人去积累和收集所有能遇到想到的场景。我们在做项目时,要把所有可能涉及的场景和语音语义环境覆盖全面。这样,当有人做测试和反向推敲时,即便超出AI的能力范围,也能通过兜底反应给出结果。

  他还提到行业中常提到的“可见即可说”,认为其存在矛盾点:既然语音的目的是让我安心驾驶并提高交互效率,为何又要让我一眼一眼地看?我认为这确实值得推敲。

  关于用户体验,Mr.K说:“用户跟语音交互其实有个潜在的期待值在起作用。”如果能够准确响应就OK,一旦没有准确响应或执行,用户就会觉得它不好用或很傻。

  他提到一个有趣的例子:有一次他在车上唤醒智能语音说“打开”,结果AI自动打开了座椅加热。这虽然体现了AI的响应能力,但并不符合用户的预期指令。这种情况在各家语音设计中都会或多或少出现。这可以归结为人工程度不够导致的智能层面体现不足。

  关于物理按键和虚拟按键的对比,他认为物理按键简单易上手且能实现去视觉化操作;而虚拟按键虽然有其优势,但在当前技术下仍无法完全取代物理按键。因此,值得期待的未来是语音和其他方式的结合,形成多维的交互方式以在安全、高效和便利之间取得平衡。

  最后我们讨论了过度宣传和“情感交互”的问题。他认为现阶段的AI语音还无法实现真正的情感交互只能算是带有明确目的性的交互出入口。而未来随着技术的不断完善可能会有更高级的技术融入进来但现阶段仍需为体验和安全做好支撑而不是喧宾夺主。

© 版权声明

相关文章