陈根:基于听觉开发的机器人,将帮助建立物理世界的真正理解
文/陈根
泛在智能时代下,是更加精进的算法和更加智能的机器。尽管我们现在还处于弱人工智能阶段,但人工智能在各个方面的能力都正快速追赶人类,甚至在某些领域已经超过人类,其中,就包括了巨大的视觉和触觉感知的进步。
相比之下,对于人类其他感官的研究却没有太多进展,比如:声音。
事实上,这主要是由于缺乏数据捕捉行动和声音的相互作用。而近日,卡内基梅隆大学(CMU)的研究小组在《机器人学:科学与系统》发表了其最新对于开发感知功能更先进的机器人的研究成果。
研究小组将开发的机器人命名为 Tilt-Bot,字面意思是“倾斜机器人”,实际上它是一台通过倾斜托盘研究物体运动和声音之间关系的机器,训练后可以实现一定程度的 “听音识物”,准确率接近 80%。
在这项工作中,研究人员通过倾斜物体,让物体撞到机器人的墙壁上托盘,以收集丰富的四频道音频信息。研究共收集了 60 个不同物体的 1.5 万次交互记录,每组记录都包含匹配的视频和音频数据。他们用这些数据创建了全新的图像+音频数据集,用于训练机器人在动作、图像和声音之间建立有意义的联系。
在试验中,研究人员对于声音与行动之间的协同作用提出了重要发现。
首先,受过训练的机器人只需要分析物体滑动和撞击的声音记录,就可以区分不同物体。例如,声音可以区分金属扳手上的金属螺丝刀。
其次,由于声音是以声波的形式传播的,其传播轨迹更直观,可以更有效地预测物体未来的运动轨迹,从而帮助机器人更好地控制物体。用从未见过的物体测试机器人性能时,如果同时使用视频和音频数据,那么它预测如何更好操控物体的表现相较于只使用视频时提升了24%。
技术是人类器官的延伸,在人工智能日渐强大的视觉和触觉下,对于听觉的研究将帮助人工智能有效提取更多隐藏信息,只有在三种感官的相互作用下,人工智能才能真正建立起对世界的物理理解。