机器人出海干打包工怎么成了CES上最强DEMO?

如果科技圈有春晚,那一定是CES

500

从当年的CD机、等离子电视,到后来的智能手机、VR眼镜,再到这两年的AI硬件,CES几乎定义了过去半个世纪消费电子的演进节奏。想知道今年什么技术会火?来CES看一眼就知道了。

500

这也是CES被科技圈定位风向标的原因。

今年的规模依然炸裂:23万平方米展区,4500多家展商、14万观众、当然,还有近千家的中国企业

今年CES的主题是“Smarter AI for All”,虽然是让AI赋能到所有产品上,但从实际应用来看,没有什么比机器人更适合。为此,CES还专门开辟了具身智能的专属展厅,把原本散落在各个角落的机器人公司聚到了一起——这在CES历史上还是头一回。

500

处在CES现场的我,也是狠狠的被震撼了一波,比如波士顿动力新发布的Atlas,不仅身体更加灵活,还有容易让人恐怖谷的360°转身,像国内的宇树,智元,傅里叶也都成为了现场围观对象。

500

除了机器人的“体操表演”,现场另外一家来自中国的机器人公司,也引起了包括我在内不少人的关注。

CES上,这家中国公司让机器人打包送外卖

这家叫做RoboSense速腾聚创的中国公司,在现场用机器人扮演起了“外卖小哥”。

500

整个演示分为两部分,先是拆包取货,在这个流程中,机器人先把身后的盒子平稳的放到指定位置,然后打开上面的盖子,把里面的礼品取出来放好。最后,它还知道把空盒子折叠压平,发回到收纳地方,以供二次利用。

500

然后是打包上架,机器人拿起空盒子,放到指定位置,抓起旁边的礼品袋放进去,然后合上盖子。最后放回到指定地点。

500

是不是看上去“平平无奇”,但要知道,这是它——机器人完全自主操作的。没有人在后面遥控操作,也不是固定场景的应试考试。

我在现场看了好几轮,从打包、上架、运送、拆包到回收,机器人一次做了将近20个连贯动作,一气呵成,全程没有人工介入。展期前两天实现累计10小时近2000次步骤动作的零失误自主操作

根据现场人员介绍,机器人的所有动作都不是预设。要知道,CES展馆对机器人来说是个全新环境,嘈杂、拥挤、充满不可预测的变量。这种场景泛化能力,实在让人对它的应用场景充满想象。

500

要知道,在之前许多自主控制案例中,都是先需要通过遥操,让机器人熟悉环境,甚至不少的演示Demo中,背后都有着一个戴着VR眼镜的操作员。比如说,之前马斯克在CyberCab发布会上的机器人调酒,就是遥操实现的。

500

相比之下,RoboSense的这个演示,可以说是这次CES上最强AI机器人Demo之一了。毕竟,我们想要的是自主行动的机器人,而不是人类的远程替身。

演示Demo的另一个值得说的是灵巧手。在机器人业内,流传一句话——大脑决定机器人能做什么,灵巧手决定机器人能做到什么程度

这次演示里,机器人要完成打包、拆箱、折叠这些动作,每一步都需要精准的力度控制——盒子捏太紧会变形,太松又会掉;折叠的时候力度不对,纸板要么折不动,要么直接压坏。

500

RoboSense速腾聚创的灵巧手上布满了力触觉传感点阵,能实时感知接触力度的变化。更重要的是,这些触觉信号会反馈给自研的大模型,大模型再根据触觉反馈来决定灵巧手的力度。并且,触觉反馈还可以帮助机器人解决视觉盲区的问题——有些时候手挡住了摄像头的视线,光靠"看"是不够的,得靠"摸"来补位。

500

这次Robosense速腾聚创不仅在CES现场进行了表演,他们还拍了在深圳实际场景下的一镜到底视频。

500

视频里,一个穿着黄色马甲的机器人在夜晚独自完成了一整套外卖配送任务:先是拆开外卖回收箱、取出外卖袋、把空箱子折叠好投进回收口,然后拎着外卖袋走到办公楼,自己按电梯、坐电梯上楼,最终把东西送到3楼目的地。

500

与CES展台相比,深圳街头的夜晚是真正的实用开放场景——光线暗、路况杂、电梯还得自己按。能在这种条件下跑通全流程,说明这套方案的泛化能力确实过硬。

在机器人领域,谁能攻克灵巧手大模型,等同于拿下了机器人领域的圣杯。两个场景看下来,RoboSense已经朝这个方向迈出了实质性的一步。

而这背后,是三项关键技术的支撑:一个前面提到过能感知压力的灵巧手,另外两个是RoboSense自研的VTLA-3D的操作大模型和一套叫Active Camera的视觉系统。

500

VTLA-3D看上去有点抽象,但是和去年智能驾驶中大火的VLA多少有点“异曲同工”。VLA是把摄像头捕捉的图像(Vision),以及用户文字指令作为输入(Language),机器人根据图像和文字来执行动作(Action)。

VTLA-3D在此之上,加入了3D激光点云信息和触觉感知(Touch),多了两个维度的信息通道,3D点云则解决了普通2D图像对深度和距离判断不够准确的问题,让机器人对空间的理解从"平面"升级到"立体";触觉解决了灵巧手“用多大劲”的问题——抓纸盒和抓铁块力度肯定不一样,这在日常高频的抓取中作用非常大。

500

根据官方的介绍,只用200多个小时的训练数据,就达到了上面大家看到的泛化效果。如何在数据量不够的情况下,达到可用的效果,这在训练数据稀少的机器人领域,非常重要。看来RoboSense找到了一条通路。

Active Camera和普通的纯视觉Camera不同,它本身有一个带双目RGB摄像模组用来接收信息,还有dToF的收发模组,用来生成上面提到过的3D激光点云,剩下有IMU惯性单元。作为有感知解决方案基因的公司,RoboSense能把三种不同感知能力一体化集成,这方面的积累确实是它的优势所在

500

不止是硬件和大模型,从这次CES展出的内容来看。RoboSense在背后其实搭建了一整套具身智能技术体系,从底层AI平台,数据采集系统,核心部件到顶端的模态控制,高效推理,基本上实现了具身智能的全栈自研。

通过交流,目前RoboSense速腾聚创已经可以为行业提供成套的解决方案,帮助各行业快速搭建具有高度泛化和可用的具身智能。无论是物流配送,工业制造还是服务业,都可以实现快速接入,不用从零开始造轮子。

具身智能正在深入行业

具身智能的发展正在迈入一个充满活力的新阶段。从技术演示走向实际应用,机器人行业已经稳健踏入了商业化落地的新征程。

如果说2025年行业重点关注的是运动能力的突破,看机器人如何更灵活的行走,奔跑,甚至完成高难度动作。那么2026年CES所展示的趋势表明,产业焦点已明确转向更高阶的操作能力与环境交互能力,逐步实现从“会动”到“能干实事”的质变

例如RoboSense速腾聚创展示的“手眼协同”方案,这个能体现出行业对完整任务闭环的重视。该方案通过感知,决策到执行的系统性支持,可以说将机器人技术转化为了实际的生产力。

这种从“炫技”到“干活”的转变,是产业走向稳健发展的积极信号。机器人不仅助力工业制造降本增效,也在医疗、养老、物流等多元场景中持续创造价值。政策支持、资本投入与技术突破正形成强大合力,推动机器人从实验室和展台,真正走进工厂、商圈与家庭。

虽然我们离完全类人,什么活都能干的通用机器人还比较遥远,但在特定场景中辅助人类、实现劳动能力复制与扩展的技术已越来越近。以RoboSense速腾聚创的演示为例,最后100米的机器人送货若能与无人配送车、无人仓等系统结合,有望显著提升物流效率,这对于生产制造和消费服务行业的影响是非常深远的。

对于那些受数据、算力等因素限制的工业操作与商业服务场景,聚焦具体需求、“精耕细作”的解决方案也展现出可行路径。随着各领域操作能力持续提升,一些前沿的机器人服务体验,预计将很快出现在我们身边。

在不断攀登技术高峰的同时,深耕场景、务实落地,才能在即将到来的机器人时代占据先机。我们正站在人机共生社会的门槛上,对未来充满信心

站务

全部专栏