机器人都开始扭秧歌了,钢铁侠还会远吗?
2025 年春晚,宇树科技的Unitree H1 机器人“福兮”身穿花袄,带领演员们共同完成了极具民族特色的扭秧歌表演《秧BOT》。
这不仅是一次视觉盛宴,更是机器人技术发展的生动展示。那么,这些机器人是如何做到如此流畅的舞蹈动作的呢?
“福兮”们凭借高自由度关节设计与高扭矩电机,实现类似人类的精准运动控制,确保稳定步态。
在群舞表演中,它结合3D 激光雷达(LiDAR)与计算机视觉,实时感知环境与演员位置,精准同步队形与动作。
其核心技术包括强化学习(Reinforcement Learning, RL),使机器人通过视频捕捉学习舞蹈,并利用轨迹优化提升动作流畅度。为了保证舞蹈稳定性,H1 采用力矩补偿算法、零力矩点控制、欠驱动收敛算法等策略,平衡大幅度动作并降低能耗。
此外,在手绢舞中,H1 通过旋转同步结构与隐形释放机制精确复现演员挥舞动作,并结合步态预测与震感降噪系统,确保动作自然、安静流畅。多台机器人则依靠集群控制(Swarm Control)和优化算法协同表演,实现高效避障与舞台适应性,展现完美群舞效果。
然而,若让这台机器人下台完成如端水、穿衣等日常任务,它可能立刻陷入困境。
比如春晚后台,当魔术师刘谦遇到机器人G1(后面会讲到)准备“握”一个时,G1竟上演了“卧”一个,可谓是用魔法打败了魔法,向我们展示了魔法界的行礼方式……
那么,当前的人形机器人距离《钢铁侠》中的高阶智能体究竟还有多远?目前全球的机器人技术到底发展到什么程度了?中国的研究处于什么水平?
当走进H1的老家(官网介绍),我们会更直观地感受到这位一岁半的180 cm机器小孩进化之迅猛。
在目前的版本中,H1移动速度高达3.3米/秒,打破全尺寸人形最高移动速度;采用UNITREE M107关节电机可实现膝关节最大扭矩360N·m;配备的LIVOX-MID360款3D激光雷达和Intel RealSense D435i款深度相机使得H1能360°无死角感知周围环境。
看到“天赋异禀”的人形机器人努力融入中国传统文化的这一刻,小编对机器统治人类的担忧好像也在逐渐消散(很期待H1长大后给俺养老呢!)。
看着不穿裤子扭秧歌的H1如此可爱,在这里show一下宇树官网发布的H1的成长记录小彩蛋~(注意提前调节音量噢)
解构机器人
HAPPY 2025 NEW YEAR
机器人发展如此之快,我们人类更要跟上TA们进化的步伐,认识机器人,理解机器人,成为机器人,超越机器人。为了真正了解一个机器人的运作,我们现在一步步解构它的功能。
人形机器人能够执行复杂任务的关键在于其运动(locomotion)、感知(perception)、认知(cognition)和导航(navigation)四个核心过程。这些要素相互作用,使机器人能够感知环境、决策并采取行动。
困难01.
如何让机器人稳定行走
HAPPY NEW YEAR
机器人运动系统的核心目标是保持平衡、控制步态并优化能量效率。人形机器人通常采用零力矩点(Zero Moment Point, ZMP)控制,以确保行走时的稳定性。
零力矩点控制指在机器人行走过程中,如果接触点的合力作用点位于支撑面内,则机器人能够保持稳定。在步态控制时,机器人需要同时具有静态稳定和动态稳定的能力。
多足机器人相比传统的轮式机器人拥有更多的关节自由度,需要更复杂的控制,否则极容易因重心偏移而摔倒。
尤其是两足机器人,由于极易产生前后方向的倾覆力矩导致前倾或后仰,因此春晚上H1机器人在下台时被后面掐着脖子以抵抗倾覆力矩。
逆运动学(Inverse Kinematics,IK):如何计算运动时的关节角度
逆运动学是解决机器人如何从一个姿态到达目标位置的数学方法,它根据执行器末端的位置和方向反推关节角度和运动姿态:
从低维的任务空间到高维的 执行器空间的坐标变换的解往往具有不稳定性和不唯一性。
对于人形机器人来说,计算其各关节运动尤为关键。例如,当机器人需要抬起一只脚迈步时,IK算法需要计算:
膝关节、髋关节等多个自由度的角度变化;
确保机器人在单脚支撑期间保持重心稳定;
计算最优轨迹,使其既节能又平稳。
步态生成
SPRING
FESTIVAL
机器人步态可以通过两种方式生成:
基于模式的步态:在已知环境中,利用零力矩点方法和逆动力学的计算设定行走方式,如ASIMO机器人采用的有限状态机(Finite State Machine, FSM)。
在线优化步态:利用强化学习或优化算法,如Proximal Policy optimization (PPO), Soft-Actor Critic (SAC), and Evolutionary Strategies (ES) 等,使机器人能够适应复杂地形,如Digit机器人在物流环境中的动态调整。
困难02.
如何让机器人看见世界
HAPPY NEW YEAR
机器人传感器系统是机器人获取外部环境信息、执行自主任务的关键组件。根据其功能,机器人传感器可分为触觉与力觉传感器、运动与位置传感器、距离与环境感知传感器、视觉传感器等多个类别。
触觉与力觉传感器
SPRING
FESTIVAL
触觉传感器):可用于检测物体的存在、接触压力,甚至温度变化。例如,在机器人手爪中,触觉传感器能测量抓取物体时的受力,防止物体滑落或被损坏。
力/力矩传感器:用于测量机器人施加的力矩,以实现精确控制。例如,协作机器人(Cobot)通过力矩传感器感知人与机器人的交互力,实现安全作业。
运动与位置传感器
SPRING
FESTIVAL
编码器:测量关节或轮子的旋转角度和速度,保证运动精度。主要包括光学编码器、电磁编码器、电容编码器等。加速度计(Accelerometers):测量机器人在不同轴向上的加速度,并通过积分计算速度。陀螺仪(Gyroscopes):测量角速度和方位角,为姿态控制提供数据。
环境感知传感器
SPRING
FESTIVAL
红外传感器基于红外光反射原理,用于短距离测量,但易受环境光影响。超声波传感器通过发射高频声波,并测量回波时间来计算距离,常用于避障和测距,例如扫地机器人使用超声波传感器检测墙壁。主动信标(Active Beacons)可用于机器人导航,包括三边测量法(trilateration)和三角测量法(triangulation),实现高精度定位。激光测距仪(Laser Range Finder, LRF)使用激光束测量目标物体的精确距离。例如,自动驾驶汽车使用激光雷达(LiDAR)进行环境建模和目标检测。
视觉与深度传感器
SPRING
FESTIVAL
基于视觉的传感器:包括CCD(电荷耦合器件)和 CMOS(互补金属氧化物半导体)摄像头,常用于计算机视觉任务,如物体检测、人脸识别。
颜色跟踪传感器用于检测和跟踪特定颜色的目标,应用于工业检测、机器人竞技等场景。
深度传感器结合红外投影仪和 IR 摄像头可用来获取 3D 深度信息。例如,微软 Kinect 传感器利用结构光技术生成三维点云数据。
此外,火星探测器等自主机器人常使用被动立体视觉(Passive Stereo Vision)创建本地地形地图,以便进行自主导航。与 LiDAR 等主动传感器相比,立体视觉能耗更低,适合远程任务。
困难03.
如何让机器人思考
HAPPY NEW YEAR
在人形机器人领域中,“思考”是机器人决策系统的核心,它决定了机器人的行为和策略。机器人通过感知数据(如视觉传感器的数据、环境传感器的数据)构建完整的环境地图,并计算出最优的路径以及动作规划。
认知模型的实现:
通过计算机视觉识别物体、检测边缘并进行模式识别,构建环境地图。
结合SLAM技术实现实时定位与更新地图。
使用复杂的人工智能算法(如深度学习、神经网络等)来优化机器人的位置和运动轨迹,确保精准执行。
机器人非线性控制策略
SPRING
FESTIVAL
在人形机器人中,系统具有非线性动力学特性。这种特性使得传统的线性控制方法无法有效发挥作用。当前科技界主要通过以下策略实现:
全局线性化控制
使用数学变换将非线性系统映射到等效的线性状态空间。通过微分平坦系统(Differentially Flat Systems)、李代数和微分同胚进行状态估计和反馈控制,确保系统的稳定性。
局部线性化控制
在机器人局部平衡点附近建立线性近似模型。利用这些模型来提高系统对外部扰动的稳健性,并支持从静止到行走等状态之间的切换,确保平稳过渡。
李雅普诺夫稳定性控制
使用李雅普诺夫函数来分析和保证系统的渐近稳定。在人形机器人行走时,这种分析方法可以帮助确保步态不会因外部冲击而失稳。
困难04.
如何教机器人“认路”
HAPPY NEW YEAR
机器人如何像人类一样“认路”?这背后的核心技术,就是导航(Navigation)。不久前的一期线上科学日已针对鸽子归巢(可点击跳转)的识路导航系统进行了较为细致的讨论。
想象一下,你的扫地机器人如何避开桌椅,在房间里找到最优清扫路线?又或者,自动驾驶汽车如何在复杂道路环境中做出迅速决策?
这背后依赖的是路径规划。
几十年来,科学家们不断改进路径规划算法,使机器人在复杂环境中也能自主决策、流畅行动。
从经典到智能进化:路径规划的发展
SPRING
FESTIVAL
最早的路径规划研究始于20 世纪 60 年代,当时科学家们试图在大规模空间中找到最短路径。最初的方法主要是经典算法,如Dijkstra 算法和A* 算法,这些基于图搜索的技术保证了最优解,但计算复杂度较高。
随后,研究人员提出了人工势场法(APF),让机器人通过“吸引力”和“斥力”计算路径,但容易陷入“局部最小值”而卡住。
为了克服这些问题,概率方法(Probabilistic Methods)在1990 年代崛起。代表性算法是概率路图(PRM)和快速探索随机树(RRT),它们通过随机采样构建路径网络,极大提高了计算效率,使机器人能在复杂、动态环境中自由探索。
到了2000 年代,研究人员又引入了启发式搜索(Heuristic Planners),如贪心算法(Greedy Search)和D* 算法,进一步提升了路径规划的实时性,特别适用于无人机、行星探测车等需要快速决策的系统。
机器人如何像生物一样学习路径?
SPRING
FESTIVAL
进入 21 世纪,研究者受自然界启发,发展出进化算法(Evolutionary Algorithms),让机器人像生物一样“进化”路径规划策略。
遗传算法(Genetic Algorithms, GA):模拟生物基因突变与优胜劣汰的过程,不断优化路径选择。
粒子群优化(Particle Swarm Optimization, PSO):灵感来源于鸟群觅食,机器人在“搜索空间”中协同寻找最优路径。
蚁群优化(Ant Colony Optimization, ACO):模拟蚂蚁觅食行为,利用“信息素”找到高效路径,适用于动态环境中的路径规划。
模拟退火(Simulated Annealing, SA):借鉴金属退火过程,通过随机搜索避免陷入局部最优解,提高路径质量。
未来的路径规划:更快、更智能、更节能
SPRING
FESTIVAL
今天,路径规划不再仅仅关注“最短路径”,而是开始优化时间、能耗、平稳性等参数。例如,现代自动驾驶技术会综合考虑转弯平滑度、加速度限制、避障策略,确保行车安全与舒适性。
未来,强化学习(Reinforcement Learning, RL)正成为路径规划的新趋势。机器人将不再依赖预设规则,而是通过自主试错和环境反馈,不断优化决策策略,使导航更加灵活、高效。
强化学习——人形机器人的外挂
HAPPY 2025 NEW YEAR
1. 强化学习的本质:机器人如何像人一样学习?
强化学习的核心目标是:让智能体(Agent)在与环境交互的过程中,通过试错逐步学习到最优策略(Policy),以最大化长期回报(Reward)。
我们可以把这个过程类比为实验室里的自旋系统寻找最低能态:
机器人面临一个复杂环境(相当于自旋系统的能量势垒)
它通过不同的动作(类似于自旋翻转)尝试改变状态(State)
环境给它奖励(Reward)
指引它走向“低能态”
——即最优行为策略。
上图机器人强化学习的学习路径,其核心可概括为这一闭环描述:状态 -> 动作 -> 奖励 -> 策略更新。通过这一循环,机器人逐步优化其行为策略,实现目标任务。例如,在机器人操作中,强化学习通过值函数和策略不断优化动作规划,指导机器人在复杂环境中完成任务。
相比于监督学习,强化学习则是在没有标签的情况下,通过探索数据的特性来学习。它并不会直接判断某个状态或动作是好是坏,而是通过奖励信号进行评价。机器人的行为会影响后续数据的发展,因此强化学习的反馈是延迟的,数据是序列化的,并且数据与数据之间存在相关性。
2. 为什么人形机器人需要强化学习?
人形机器人比普通轮式机器人复杂得多,物理上,人形机器人有几十个自由度(DOF),状态空间远大于普通机械臂。
传统控制方法(如PID、优化控制)难以在不确定环境下实现高效控制。RL 提供了一种端到端学习的方法,允许机器人通过模拟或真实环境交互,自主学习如何行走、站立、跳跃,甚至模仿人类动作。
📌 类比:当小编在实验室中尝试优化 PLD 工艺时,可能不会直接知道最优参数,而是需要不断实验,调整沉积温度、气压等。RL 也是如此,让机器人在“实验”中找到最优策略。
3. 人形机器人中的强化学习方法
机器人领域强化学习研究的范式
价值函数方法(Value-Based RL)
SPRING
FESTIVAL
核心思想是学习一个价值函数(Q值)来评估不同动作的好坏,然后机器人选择价值最高的动作执行。例如:Q-learning、深度 Q 网络(DQN)。
🚀 应用:最初的RL 机器人控制主要依赖 Q-learning,例如机器人学会在二维空间避障。但对于高维人形机器人,这种方法不够高效。
策略梯度方法(Policy-Based RL)
SPRING
FESTIVAL
不同于 Q-learning直接估算价值,这类方法直接优化策略函数,更适合高维连续动作问题:
深度确定性策略梯度(DDPG):用于机器人抓取物体等任务。
信赖域策略优化(TRPO):适用于复杂运动,如机器人踢足球。
近端策略优化(PPO):用于高效的训练,比如 OpenAI 训练的五指机械手。
🚀 应用:Boston Dynamics 训练 Atlas 机器人跑酷时使用了 PPO。
模型学习方法(Model-Based RL)
SPRING
FESTIVAL
这类方法尝试让机器人先学习世界的物理规律(建模),然后在模型中规划最优策略,类似于小编在实验前先建立理论模型:物理仿真环境(MuJoCo、PyBullet)+ RL 训练。在机器人学会在仿真中行走后,再转移到真实环境(Sim-to-Real)。
🚀 应用:Google DeepMind 用 Model-Based RL 训练四足机器人适应各种地形。Tesla 的人形机器人 Optimus 在仿真环境中学习步行和抓取。
4. 未来方向🎯
元强化学习(Meta-RL):让机器人像人一样,学习如何学习,提高适应性。
逆强化学习(IRL):从人类演示中推导奖励函数,减少手工设计的工作。
自监督 RL:减少对外部奖励信号的依赖,让机器人自主探索世界。
全球人形机器人争霸:谁才是未来智能革命的领跑者?
HAPPY 2025 NEW YEAR
随着国产人形机器人不断突破极限,我们不妨看看国际舞台上还有哪些强劲的竞争者。特斯拉、波士顿动力、Agility Robotics、Unitree等科技巨头,正在推动人形机器人从实验室走向现实,赋予它们更强的感知、学习和执行能力。那么,这些机器人各自擅长什么领域?
特斯拉 Optimus:工业化未来的多面手
SPRING
FESTIVAL
作为电动车和自动驾驶领域的佼佼者,特斯拉推出的 Optimus 机器人,也继承了其 AI 先发优势。Optimus 搭载了类似自动驾驶系统的神经网络,能实时感知环境、识别物体,并自主执行任务,如抓取、搬运、精细操作等。其高分辨率摄像头与分布在手部和足部的先进触觉与力觉传感器,让它能像人类一样感知物品的重量和形状。此外,强大的动力控制系统,使其具备流畅的运动能力,成为未来工业制造与家庭服务的潜在变革者。
波士顿动力 Atlas:机器人界的“运动健将”
SPRING
FESTIVAL
如果说 Optimus 代表的是工业应用的未来,那么波士顿动力的 Atlas 则是机器人界的“体能怪兽”。它凭借卓越的动态控制系统,可以在崎岖不平的地形上稳健行走,甚至完成跳跃、空翻、翻越障碍物等高难度动作。这得益于激光雷达(LiDAR)+ 深度摄像头组成的实时环境感知系统,使其能够在复杂环境中迅速调整动作,展现出惊人的机动性。Atlas 已被广泛用于军事、救援等高风险领域,未来或将在更多高动态任务中大放异彩。
Agility Robotics Digit:物流与仓储的可靠伙伴
SPRING
FESTIVAL
与 Atlas 的高动态不同,Digit 机器人更专注于稳定行走和物流任务。它采用了特殊的末端执行器(即机械手),能够精准拾取、搬运和放置货物,适用于仓储、物流和供应链管理。Digit 具备强大的平衡控制技术,即使在楼梯、狭窄通道或复杂光照条件下,也能流畅执行任务。值得一提的是,它的LED“眼睛” 不仅提升了人机交互体验,还能通过光信号向人类员工传达行动意图,提高协作效率。
Unitree G1:从四足机器人到人形机器人的突破
SPRING
FESTIVAL
在国产机器人中,Unitree G1 是近年来最具潜力的选手之一。相比 H1 的工业风设计,G1 造型更具流畅美感,并且在跳跃、棍术操控等方面表现突出。
它结合了模仿学习和强化学习技术,使其能够不断进化,并适应更复杂的任务需求。凭借深度摄像头 + 3D 激光雷达(LiDAR),G1 能够进行 360 度全方位环境感知,在动态环境中实现精准决策与精细操作,甚至能够轻柔地拾取易碎品,展现强大的任务适应能力。
除了上述明星机器人,还有一些领域的强者值得关注:
Engineered Arts AMECA:凭借极具拟人化的表情,在人机交互和娱乐领域表现出色,但目前仍缺乏行走能力。
Figure AI Figure 02:专注于仓储和物流,具备增强的环境感知能力,致力于提升自动化作业水平。
KIT ARMAR-6:由卡尔斯鲁厄理工学院(KIT) 研发,专为工业环境设计,擅长自主操作和协同作业。
Astribot S1:家庭友好型机器人,具备快速学习能力,或将成为未来家务机器人市场的重要玩家。
从春晚舞台到现实应用,人形机器人还需要哪些技术突破?
要实现科幻作品中的“钢铁侠”级别能力,我们的人形机器人依然任重而道远,仍需在以下核心技术领域取得突破:
高效动力系统:目前的电机和液压驱动难以兼顾力量与灵活性。未来可能采用人工肌肉材料(如电活性聚合物或形状记忆合金),以降低能耗并提升仿生能力。
高级环境感知与智能控制:现有机器人多依赖预设规则,难以适应复杂环境变化。结合深度学习与强化学习,使机器人能自主调整步态并适应多变环境。
优化能源系统:现有电池技术难以支撑长时间高功耗运动。未来或可借助高能量密度电池、小型燃料电池或高效无线充电技术,提高续航能力。
参考文献:
Zhang T, Mo H. Reinforcement learning for robot research: A comprehensive review and open issues[J]. International Journal of Advanced Robotic Systems, 2021, 18(3): 17298814211007305.
Rubio F, Valero F, Llopis-Albert C. A review of mobile robots: Concepts, methods, theoretical framework, and applications[J]. International Journal of Advanced Robotic Systems, 2019, 16(2): 1729881419839596.
Chethana S, Charan S S, Srihitha V, et al. Humanoid Robot Gait Control Using PPO, SAC, and ES Algorithms[C]//2023 4th IEEE Global Conference for Advancement in Technology (GCAT). IEEE, 2023: 1-7.
宇树科技官网:https://www.unitree.com/cn/h1
Kajita S, Benallegue M, Cisneros R, et al. Biped walking pattern generation based on spatially quantized dynamics[C]//2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids). IEEE, 2017: 599-605.
Hirai K, Hirose M, Haikawa Y, et al. The development of Honda humanoid robot[C]//Proceedings. 1998 IEEE international conference on robotics and automation (Cat. No. 98CH36146). IEEE, 1998, 2: 1321-1326.
D'Souza A, Vijayakumar S, Schaal S. Learning inverse kinematics[C]//Proceedings 2001 IEEE/RSJ International Conference on Intelligent Robots and Systems. Expanding the Societal Role of Robotics in the the Next Millennium (Cat. No. 01CH37180). IEEE, 2001, 1: 298-303.
https://interestingengineering.com/entertainment/top-humanoid-robots-list
https://xpert.digital/en/robot-comparison/
春晚机器人虽酷,离“钢铁侠”仍有距离
当前的发展速度表明,或许在未来 10-20 年内,我们将迎来更智能、更强大的机器人进入日常生活。
你认为人形机器人会在何时真正融入我们的世界呢?