敏捷机器人的“模仿困境”
近年来,四足机器人已经掌握在多种地形上的自如行走的能力,但其敏捷性仍与自然界中的动物有差距。传统的机器人训练方法主要依赖强化学习,但这需要研究人员手工设计一套极其复杂的奖励函数,就像给学生的每一项表现打分一样。这个过程不仅耗时费力,而且一旦“分数”权重设置不当,机器人就可能什么也学不会。模仿学习是一条捷径,让机器人直接模仿专家的动作。然而,获取高质量的专家数据比如通过昂贵的动作捕捉系统记录动物的3D运动成本极高,且数据量和多样性有限。有没有更简单、更经济的办法?答案是肯定的:让机器人直接从海量的网络视频中学习。
从2D视频到3D动作:三大技术攻坚
直接从视频学习并非易事,主要面临两大“拦路虎”:1)视频中的高速运动会产生模糊,导致关节定位不准、轨迹断裂;2)单目视频缺乏深度信息,如何从2D画面中准确还原3D动作是一大挑战。
针对这些难题,香港大学的Arc Lab研究团队提出了一个创新的三阶段框架,成功攻克了技术瓶颈。
1)鲁棒的2D姿态跟踪:让关节运动“丝滑连贯”
研究团队首先利用DeepLabCut模型从视频中初步估计出动物的2D关节位置。但直接得到的结果往往存在跳跃和错误。
为此,他们引入了一种结合了骨架图模型和卡尔曼滤波器的智能跟踪算法。该算法不仅能预测关节的下一个位置,还能通过综合考量位置和运动方向,进行精准的数据关联与修正,最终输出一条平滑、连续的2D关节运动轨迹,为后续步骤奠定了坚实基础。
Fig 2 后空翻动作的2D姿态跟踪可视化
2)时空图卷积网络(STGNet):从2D到3D的“神奇翻译官”
团队开发了一个名为STGNet的神经网络,专门用于从2D序列中重建3D运动。
空间理解:通过图卷积网络(GCN),模型能理解每一帧画面中,动物关节之间的连接关系,捕捉静态姿态。
时间理解:通过扩张时间卷积,模型能分析连续多帧中同一关节的运动趋势,捕捉动态过程。
STGNet将时空特征融合,最终精准地输出动物的3D关节运动轨迹。这种方法甚至可以通过半监督学习,重建出训练数据中从未出现过的复杂动作,如后空翻。
Fig 3 多种四足动作的3D姿态估计结果
3)生成式模仿学习:让机器人“活学活用”
获得3D动作数据后,下一步是让机器人模仿。研究采用了对抗性运动先验(AMP) 这一先进的生成式模仿学习方法。它就像一个严格的“舞蹈老师”:一个“判别器”网络负责判断机器人的动作是否与视频中动物的动作一样逼真。机器人则通过不断练习,努力“骗过”判别器。在这个过程中,机器人不仅能学会模仿特定动作,还能在指令下灵活切换步态,实现真正的技能掌握,而非死记硬背。
Fig 4 机器人动作与视频动作相似性评估
惊艳成果:机器人学会了哪些“绝技”?
该框架在AlienGo机器人上进行了成功部署,效果令人惊叹。
高速奔跑:机器人奔跑的最高速度可达3.45米/秒,步态协调,展现了极高的敏捷性。
三足容错行走:在一条腿“故障”的情况下,机器人能稳定行走,这对于在恶劣环境下维持作业能力至关重要。
双足运动:机器人能够用两条后腿站立和行走,并实现四足与双足姿态间的流畅转换。
连续后空翻:机器人可以连续完成后空翻动作,充分证明了该框架处理高爆发、高难度动作的能力。

Fig 5 后空翻动作的提取和估计结果(左:动物后空翻动作的轨迹估计结果 右:机器人从视频中掌握的后空翻动作)
未来展望与深远意义
这项研究的意义远不止于让机器人翻个跟头。它彻底摆脱了对复杂手工奖励函数和昂贵动作捕捉设备的依赖,为机器人学习技能开辟了一条全新的、可扩展的路径。
从观看视频到掌握技能,机器人的学习方式正在经历一场静悄悄的变革。这项研究让我们看到,未来机器人的“老师”,可能就是我们身边自然界的生灵,或是网络上海量的视频资源。机器的“进化”之路,正变得越来越智能,也越来越有趣。
本文网址:




