怎么刚开工, 我就看到宇树的机器人在模仿科比?

要说今年过年最出风头的科技企业,那除了整天服务器繁忙的 DeepSeek ,估计就得数宇树科技了。

500 就是春晚上拿机器人扭秧歌的那个。

看着挺牛逼是吧,结果年才过了没几天,大正月的他们又整出个新活,英伟达、卡内基梅隆大学团队用宇树 G1 研究出来一个项目,拿机器人复刻科比。。。

500

看看这动作,这后仰跳投,是不是还挺有那味的?

别说你是詹蜜,经典的霸王步人家也学了。

500

有差友可能会问,我是年轻人,不懂规矩,不看球也不看 nba ,我咋能知道这机器人到底什么水平呢?

也别慌,各位熟知的 “NBA 大使 ” 的经典铁山靠,人家也能学。。。

500

有一说一,给机器人编程早就不是啥新鲜事了,你坤哥这种招牌动作,粉丝内部甚至还有用简单机械机构就能实现的。所以宇树这次要是只能复刻这种的话,那还算不上啥科技狠活。

500 那么这波这个展示真正牛波儿的地方在哪呢,大过年的人家总不会就是为了唱跳 rap 打篮球吧。

于是哥们去翻了翻人家的论文,才发现这里面还真暗藏玄机,人家这一手看似是全明星模仿,实际上是机器人训练技术的一个重大突破。

500

至于咱为啥这么说,那就得先聊聊现在的机器人是咋训练的。

众所周知,机器人这玩意甭管外表多酷炫,骨子里还是算法在跑。

500 所以你要想让一个机器人学会打篮球的话,最简单的办法就是先测量出机器人的各方面数据,比如关节扭矩、连杆质量分布啥的;再拿这些数据去搞个动力学建模,就是在电脑里模拟机器人的运动。

不过这块儿就得人工一点点调整各种参数,像机器人的手臂力量、投篮角度等等。这套 “ 私人订制 ” 的玩法,在专业领域有个更唬人的名字,叫系统识别 (  System Identification , 简称SysID  ) 。

500

但问题在于,要一点点把各种参数都调到完美,这是个特别肝的活儿,需要大量时间,还得是专业人士才能搞;

而且就算你在模拟器里调好了,现实里也不一定就是那么回事儿。就好比你在 NBA 2K 里练出一代乔丹,但上了真球场,可能连球都运不利索。

500 虚拟世界再真,跟现实的参数维度也不是一个量级的,像什么篮球的手感、弹性,空气阻力、风向风速,甚至其他球员的肘击,模型都没法面面俱到。

所以这种传统 SysID 搞出来的机器人,在实验室里看着花拳绣腿,一到真实场景,就像我爱发明里面的人机对抗一样,要开始拉了。

500

既然真实环境这么复杂,有的科学家就开始反向操作了:与其死磕完美模型,不如直接把机器人丢进各种 “ 奇葩 ” 环境里去练级。

500 比如有时候地面很滑,有时候篮球很重,有时候篮筐很高。。。反正就让机器人在各种极端条件下自己迭代,找到最优策略。

这种骚操作,有个听起来玄乎的名字,叫域随机化 (  Domain Randomization , 简称DR  ) 

500

听着好像有点道理,可这也有问题。这种方法就跟 “ 盲人摸象 ” 似的,机器人就算见识了各种情况,但要总结出真正的规律还是很难,而且很容易 “ 用力过猛 ” 。

500 再加上为了适应各种极端情况,机器人就得求稳,于是动作就很保守、不灵活,比如运球的时候总是小心翼翼的,投篮的时候不敢放开手脚。

一句话,这些传统方法训练机器人,要么全靠建模调参,费时费力;要么动作僵硬缓慢,没法完成复杂动作,纯纯摆件。

500

可要想让机器人真的参与到生活里,不说代替咱们打工,起码像人一样的灵活性总得有吧,要是多少都沾点人工智障,那不白期待了嘛。

500 那么宇树这波到底是咋做到让机器人这么灵敏的呢,重点来了。

论文里说,他们用了一个叫ASAP ( Aligning Simulation and Real Physics ,对齐模拟与真实物理框架 )的东西。

500

按文章里的说法,这个技术要先 “ 利用这些经过处理的人类运动数据在仿真环境中训练一个基于相位的运动跟踪策略 ” ,再 “ 通过强化学习训练一个残差动作模型补偿仿真与现实之间的差异 ” 。

听起来很绕,但你先别急,这玩意的实际思路还挺简明的,其实就是把咱上面说的传统功夫,用化劲整合起来,搞了个机器人训练速成班。

500

简单来说,这个速成班分两步走,咱先说第一步:就是给机器人打基础,搞模拟预习

500 而要搞预习,你得有教材。这里就是要先下载一堆视频,打篮球的也行,其他视频也行,重点是视频里得有人;

然后通过一个叫 TRAM 的运动重建工具,把视频里面的人类动作都扒出来,转换成三维运动轨迹,这样机器才能看得懂这些动作;完事再把这些动作放到一个虚拟环境里来训练,目的是让机器人学会精确模仿视频里的动作数据。

500

拿打篮球这个动作来说,你得先找一堆打球视频,记录下运球、投篮的动作,把这些动作数据处理好,再把这些数据扔到模拟器里,让机器人先在模拟器里云练球,相当于先做好模拟再考试。

500

所以速成班的第二步就得真枪实弹的来,三年模拟完了,是时候五年高考了。

500 虽然之前的数据已经是从现实中提取的了,但等到机器人被拉到真球场上的时候,它就会发现云玩家还是差点意思,真实环境里的位置、速度、加速度、关节角度等数据,跟仿真里还是有一定差别。

于是这时候工程师就会利用机器人身上的传感器收集这些数据,再把这些数据跟之前在虚拟环境里训练的数据对比,用强化学习搞一个误差修正模型出来,这个就是所谓的残差( delta )动作模型

500

有了这个残差动作模型,这下机器人在模拟器里的运动,就跟在现实里大差不差了,然后工程师再把当中的少量参数微调一下,机器人就能做到跟视频里人类运球一样敏捷流畅了。

500

但你要把这个 ASAP 框架的两步放一起看,就会发现这玩意搞的效果虽然看着挺牛逼的,比传统方案练出来的机器人好多了,但思路其实跟咱上面说的传统训练思路差的没那么大。

原理也很简单嘛,纯建模训练不真实还费时间,纯现实训练动作不灵活,那把这两个方案结合起来:

500 用现实数据去帮助建模,再把建模的成功放在现实里校正,虚实结合,不就两难自解~

500

实际上,这种用现实数据搞虚拟建模,再把在虚拟建模里完成的工程搬到现实,其实也算是很英伟达的操作了。

500 之前他们就有一个 Cosmos 平台,号称是世界模型,目的就是像这次这样把现实里的物理现象搬到电脑里去模拟,这样就能大大节省工程师们的研发时间。

这玩意对机器人、 AI 、自动驾驶啥的意义都挺大,毕竟这可就不用再像以前一样戴着各种传感器,花那么多时间慢慢搜集现实数据。

训练时长大幅缩短,结果最后训练效果还更好了,这不妥妥的黑科技嘛。

500

哦对了,最后还有一个彩蛋:今天这篇论文的主要作者,英伟达 GEAR 团队成员、现在在卡内基梅隆大学留学的 B 站 up 主何泰然,他小时候的梦想还真就是造一个电影《 铁甲钢拳 》( 设定是人类操控机器人打拳 )里的机器人。

500 对一个理工男来说,把儿时的梦想变成现实,我觉得这太酷了。

500

图片、资料来源

ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills

HumanoidLocomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning

Adaptive Kinematic Modelling for Multiobjective Control of a Redundant Surgical Robotic Tool

微博,bilibili等,部分图源网络

500

站务

全部专栏