斯坦福团队建立AI音频数据收集系统,能让机器人判断杯中是否有骰子

AI百科2个月前发布 快创云
39 0

  如今,许多人工智能驱动的机器人依赖摄像头来感知周围环境并学习新任务,但声音训练正逐渐成为辅助它们完成低能见度任务的有效手段。尽管视觉在诸多场景中至关重要,但在日常生活中,声音往往能提供更实用的信息,例如通过烹饪时洋葱在锅中发出的嘶嘶声来判断锅的温度。

  然而,声音训练机器人主要局限于高度控制的实验室环境,且相关技术进展相对滞后于其他快速机器人训练方法。为了改变这一现状,美国斯坦福大学机器人与实验室的研究团队正在积极探索新途径。他们构建了一个音频数据采集系统,该系统集成了GoPro相机和带麦克风的夹持器,能够有效过滤环境噪音。

  研究过程中,人类演示者会携带这套设备执行各种家庭任务,随后利用这些音频数据来指导机械臂独立完成任务。该团队开发的新训练算法使机器人能够从音频信号中提取关键线索,以更高效地完成各项任务。主要研究者Zeyi Liu表示:“迄今为止,机器人的训练主要依赖于无声视频。但音频中蕴含着大量有价值的信息。”

  为了验证声音对机器人的实际效用,研究人员选取了四项代表性任务进行测试:在平底锅中翻转百吉饼、擦拭白板、粘合尼龙条以及从杯子中倒出骰子。在这些任务中,声音提供了摄像头或触觉传感器难以捕捉的线索,例如判断橡皮擦是否已接触白板,或杯子中是否存在骰子。

  经过数百次演示后,研究团队对比了使用音频训练与仅使用视觉训练的成功率。相关研究成果已在一个未经同行评审的预印本网站上发布。例如,在骰子测试环节,当仅使用视觉时,机器人准确判断杯子中有无骰子的成功率仅为27%,而加入声音后,这一数字飙升至94%。

  斯坦福大学机器人与实验室的负责人Shuran Song指出,尽管音频在机器人训练中的应用并非首创,但此次研究是向大规模训练迈进的重要一步。“我们正在使从真实世界收集的音频数据更加易于利用,不再局限于实验室环境,因为后者耗时较长。”

  这项研究表明,在人工智能驱动的机器人物体操作训练中,音频数据有望成为更受欢迎的信息来源。研究人员采用模仿学习方法,使机器人的训练速度达到了前所未有的水平。他们向机器人展示了数百个任务示例,而非人工编码每个任务的细节。

  如果能够通过研究中的设备大规模收集音频数据,这将为机器人增添一种新的“感知”能力,使它们能更快地适应低能见度或完全看不见的环境。美国密歇根大学机器人学副教授德米特里·贝伦森虽未参与此项研究,但他表示:“可以肯定地说,音频是(机器人)感知研究中最为缺失的一环。”

  这是因为大多数关于训练机器人操纵物体的研究都集中在工业分拣和放置任务上,如将物体分类放入垃圾箱。这些任务对声音的依赖程度较低,更侧重于触觉或视觉传感器。然而,随着机器人的应用领域扩展到家庭、厨房等环境,音频将发挥越来越重要的作用。例如,在寻找钥匙的场景中,通过监听钥匙碰撞的声音即可判断其所在位置。

  尽管如此,音频仍存在一定的局限性。该团队指出,对于质地柔软或灵活的物体(如衣物),声音并不那么有用,因为它们产生的有意义声音较少。此外,机器人在执行任务时难以过滤掉自身发出的噪音,因为这类噪音并未包含在人类的训练数据中。为了解决这个问题,研究人员计划将机器人的“声音”和致动器噪音添加到训练集中,使机器人学会自我过滤。

  Liu表示,下一步是探索更多数据对模型效果的影响。这可能包括增加麦克风以收集空间音频,以及将麦克风集成到其他类型的数据采集设备中。

© 版权声明

相关文章