当 Scaling Law 在触顶边界徘徊之时,强化学习为构建更强大的大模型开辟出了一条新范式。

在机器人领域,强化学习也带来了意外之喜。

这只上过好几次全网热搜的机器狗 Spot,想必大家都不陌生。

在原来的文章中,无论 Spot 做了什么高难度动作,哪怕是边喷火边跳踢踏舞,后台总有留言,「为什么波士顿动力不把机器人的脚做成轮式的?」

这是因为 Spot 总是优雅地、小心翼翼地踏着小碎步,没办法大步行走,相较于脚踩风火轮的轮式机器狗,不仅速度跟不上,也更容易受到地形限制。

士别三日,当刮目相看。几个月不见,Spot 的「小步舞曲」已经成为过往,看看现在 Spot 大步流星的样子,迅速敏捷,你和它赛跑都追不上了:

Spot 出厂时最快速度只有 1.6 米 / 秒。几周前与波士顿动力官宣合作的 RAI 研究所带来了最新突破,Spot 的跑步速度提升了近 3 倍,达到了时速 18.7 千米。

一只小型犬的平均奔跑速度大概是 20 千米 / 时,这两个数字已经很接近了。

在传统观念中,大家可能认为机器人的速度主要受限于马达性能。但当研究团队用强化学习对机器狗的电机和动力装置建模之后,发现了一个出人意料的事实。

在模拟环境中,可以并行训练几台 Spot 机器人(甚至几百台),以实现强大的现实世界性能。

「真正限制 Spot 速度的,竟然是电池供电能力!」RAI 研究所的机器人专家 Farbod Farshidian 说道,「这个发现让我们都很惊讶,因为之前都以为机器人的运动速度提不上去是在马达的功率或扭矩之类的问题。」

Spot 的电力系统相当复杂,仍有进一步优化的空间。Farshidian 指出,阻止他们将 Spot 的最高速度推过 5.2 米 / 秒的唯一原因是他们无法访问电池电压,无法将这些实际数据纳入他们的 RL 模型。

这意味着,如果能设计出更强劲的电池,Spot 的还能跑得更快。

有趣的是,当 Spot 以这个速度奔跑时,它的动作看起来和真实的狗完全不同。Farshidian 解释说:「这个奔跑姿态确实不像生物,但这很正常 ——Spot 的驱动器和关节结构都和真狗不一样,为什么要用生物的方式来跑呢?」

Spot 的执行器不同于肌肉,运动学特性也不同,适合狗快速奔跑的步态不一定适合机器狗。

Spot 提速的关键在于,研究人员在小跑步态的基础上,增加了一个四只脚同时离地的飞行阶段。小步和飞行衔接起来,从技术上就变成了奔跑。

四脚离地的「飞行」阶段

Farshidian 说:「这个飞行阶段是必要的,因为机器人需要这段时间快速向前移动脚步来维持速度。」研究人员给机器人了「自主发现的空间」,因为这时,编程程序所要求的不是「奔跑」,而是去找到最高效的快速移动方式。

传统的机器人控制使用模型预测控制(MPC)方法,就像给机器人一本详细的「动作指南」。这种方法很可靠,但也很保守。

这由于要求计算机要在事件发生后立即响应,一旦没有在短时间内完成复杂的运动规划和控制,反映到机器人这里就是动作迟缓或出错了。

而强化学习则完全不同。它就像让机器人在「虚拟道场」中不断练习,找到最优的动作方案。一旦学会了,这些技能就能直接应用到现实中。

强化学习不仅能最大化机器人的性能,还能使其表现更加可靠。RAI 研究所一直在实验一款全新的机器人 —— 一辆名为 UMV 的自行车。它采用了与 Spot 高速奔跑时基本相同的强化学习 RL 流程,用于平衡和驾驶训练,并成功学会了跑酷动作。

更值得注意的是,UMV 没有配备任何平衡陀螺仪,而是完全依靠 AI 来保持平衡的。

「强化学习的关键在于发现新的行为,并在那些难以建模的复杂条件下使其变得稳健和可靠。这正是强化学习真正大放异彩的地方。」RAI 研究所苏黎世办公室主任 Marco Hutter 表示,「一方面,强化学习帮助 UMV 在各种情况下保持稳定的驾驶能力;另一方面,它让我们理解机器人的动态,更好地实现一些新动作,比如跳上比它本身还高的桌子。」

虽然 UMV 已经能很熟练地做各种特技动作了,但对于它来说,完成一些看似简单的动作甚至更难,比如倒车。

不太会倒车

「UMV 倒车时很不稳定」,Hutter 解释说,「使用经典的模型预测控制(MPC)控制器很难做到这个动作,尤其是地形崎岖或有干扰的情况下。」

目前,RAI 研究所还在努力让 UMV 走出实验室,在复杂地形上来一场真正的自行车跑酷表演。

在「虚拟道场」中训练 UMV 如何下楼梯

RAI 研究所表示,重点不在于这个某个特定的硬件能做什么,而在于任何机器人通过 RL 和其他基于学习的方法能做什么。机器人的硬件在理论上可以实现比用经典控制算法更多的功能。关键的问题是如何理解这些硬件系统中的隐藏限制,不断突破控制的边界。

“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”