陈根：基于听觉开发的机器人，将帮助建立物理世界的真正理解

知名科技作家为你解读科技与生活的方方面面。2020-08-17 09:18

文/陈根

泛在智能时代下，是更加精进的算法和更加智能的机器。尽管我们现在还处于弱人工智能阶段，但人工智能在各个方面的能力都正快速追赶人类，甚至在某些领域已经超过人类，其中，就包括了巨大的视觉和触觉感知的进步。

相比之下，对于人类其他感官的研究却没有太多进展，比如：声音。

事实上，这主要是由于缺乏数据捕捉行动和声音的相互作用。而近日，卡内基梅隆大学（CMU）的研究小组在《机器人学：科学与系统》发表了其最新对于开发感知功能更先进的机器人的研究成果。

500

研究小组将开发的机器人命名为 Tilt-Bot，字面意思是“倾斜机器人”，实际上它是一台通过倾斜托盘研究物体运动和声音之间关系的机器，训练后可以实现一定程度的 “听音识物”，准确率接近 80%。

在这项工作中，研究人员通过倾斜物体，让物体撞到机器人的墙壁上托盘，以收集丰富的四频道音频信息。研究共收集了 60 个不同物体的 1.5 万次交互记录，每组记录都包含匹配的视频和音频数据。他们用这些数据创建了全新的图像+音频数据集，用于训练机器人在动作、图像和声音之间建立有意义的联系。

500

在试验中，研究人员对于声音与行动之间的协同作用提出了重要发现。

首先，受过训练的机器人只需要分析物体滑动和撞击的声音记录，就可以区分不同物体。例如，声音可以区分金属扳手上的金属螺丝刀。

其次，由于声音是以声波的形式传播的，其传播轨迹更直观，可以更有效地预测物体未来的运动轨迹，从而帮助机器人更好地控制物体。用从未见过的物体测试机器人性能时，如果同时使用视频和音频数据，那么它预测如何更好操控物体的表现相较于只使用视频时提升了24%。

技术是人类器官的延伸，在人工智能日渐强大的视觉和触觉下，对于听觉的研究将帮助人工智能有效提取更多隐藏信息，只有在三种感官的相互作用下，人工智能才能真正建立起对世界的物理理解。

科技举报

知名科技作家为你解读科技与生活的方方面面。 |

2767篇文章 | 620人关注

+关注

观察者网用户社区