如今,大多数人工智能驱动的机器人都使用摄像头来了解周围环境并学习新任务,但用声音训练机器人正变得越来越容易,可以帮助它们更好地适应能见度有限的任务和环境。
虽然视觉很重要,但在日常任务中,声音实际上更有用,比如通过洋葱在炉子上嘶嘶作响的声音,来判断锅的温度是否合适。
然而,用声音训练机器人只在高度受控的实验室环境中进行,而且这些技术落后于其他快速机器人训练方法。
美国斯坦福大学机器人与人工智能实验室的研究人员正着手改变这一现状。他们首先建立了一个收集音频数据的系统,包括一个 GoPro 相机和一个带麦克风的夹持器。该麦克风可以过滤环境噪声。
人类演示者会带着设备完成各种家庭任务,然后使用这些数据教机械臂如何独自执行任务。
该团队的新训练算法帮助机器人从音频信号中收集线索,以更有效地执行任务。
“到目前为止,机器人一直在无声的视频上训练。”斯坦福大学博士生、该研究的主要作者 Zeyi Liu 说,“但音频中有很多有用的数据。”
为了测试如果机器人能够“听见”,以及它能取得更好的成绩,研究人员选择了四项任务:在平底锅里翻转百吉饼、擦白板、把两条尼龙条粘在一起、以及从杯子里倒出骰子。
在每项任务中,声音都会提供摄像头或触觉传感器难以处理的线索,比如知道橡皮擦是否正确接触到白板,或者杯子里是否有骰子。
在对每项任务进行几百次演示后,研究小组比较了使用音频训练和仅使用视觉训练的成功率。相关论文发表在一个未经同行评审的预印本网站上。
当在骰子测试中单独使用视觉时,机器人可以在 27% 的时间里准确判断杯子里是否有骰子,但当包括声音时,这一数字上升到了 94%。
(来源:ZEYI LIU ET AL)
这项研究的实验室负责人 Shuran Song 表示,这不是第一次将音频用于训练机器人,但这是朝着大规模训练迈出的一大步:“我们正在让从‘真实世界’收集的音频更容易使用,而不是局限于在实验室收集,因为这更耗时。”
这项研究表明,在用人工智能训练机器人的竞赛中,音频可能会成为更受欢迎的数据源。
通过使用模仿学习的方法,研究人员训练机器人的速度比以往任何时候都快。
他们向机器人展示了数百个正在进行中的任务的示例,而不是人工编码每个任务。
如果可以使用研究中的设备大规模收集音频,这将给机器人一种全新的“感觉”,帮助它们更快地适应能见度有限或看不见的环境。
美国密歇根大学机器人学副教授德米特里贝伦森(Dmitry Berenson)没有参与这项研究,他说:“可以肯定地说,音频是(机器人)感知研究中最缺失的地方。”
这是因为训练机器人操纵物体的大部分研究都是针对工业分拣和放置任务,比如将物体分类到垃圾箱中。
这些任务并不会从声音中获得太多价值,而是更依赖于触觉或视觉传感器。
但贝伦森说,随着机器人的应用范围扩展到家庭、厨房和其他环境中,音频将变得越来越有用。
假设一个机器人试图找到哪个包或口袋里有一串钥匙,但可见性有限。贝伦森说:“在你摸到钥匙之前,你就能听到它们碰撞的声音。这表明钥匙就在那个口袋里,而不是其他的。”
尽管如此,音频仍然具有局限性。该团队指出,声音对衣服等质地柔软或灵活的物体没有那么有用,因为它们不会发出那么多可用的(有意义的)声音。
机器人在执行任务时也很难过滤掉自己发出的噪音,因为人类产生的训练数据中不存在这种噪音。
为了解决这个问题,研究人员需要将机器人的“声音”和致动器噪音添加到训练集中,这样机器人就可以学会将它们过滤掉。
Liu 说,下一步是看看这些模型是否能用更多的数据得到多好的结果。这可能意味着增加更多的麦克风来收集空间音频,并将麦克风集成到其他类型的数据收集设备中。
支持:Ren
运营/排版:何晨龙