返回列表 发布新帖

Boston Dynamics+RAI 最新论文分享:ZEST

16 2
发表于 昨天 15:12 | 查看全部 阅读模式

标题:ZEST: Zero-shot Embodied Skill Transfer forAthletic Robot Control


最近机器人圈子里最火的词大概就是“通用人形控制”了。大家都在卷,有人卷大模型端到端,有人卷复杂的 reward engineering。但就在前两天,波士顿动力(Boston Dynamics)和 RAI Institute 甩出了一篇新论文 ZEST (Zero-shot Embodied Skill Transfer),直接把 Atlas、Unitree G1 和 Spot 狗拉出来溜了一圈,效果那是相当炸裂。

这篇 paper 最有意思的地方不是它“甚至能做后空翻”,而是它的极简主义美学。它告诉你:不需要复杂的 teacher-student 蒸馏,不需要昂贵的动捕棚,甚至不需要给机器人穿这一堆特制的传感器马甲,只要你有一段视频,或者一个粗糙的动画,我就能让机器人学会。

我也读完了这篇 20 来页的 paper,这就来扒一扒,他们到底做对了什么?

1. “喂饭”式教学:从视频到动作,居然不用中间商赚差价
以前我们要让机器人学跳舞,流程通常是这样的:找个动捕棚 -> 贴点 -> 录数据 -> 清洗数据 -> 针对这个动作调一套控制器 -> 祈祷它别摔。

ZEST 说:这也太麻烦了。

他们的逻辑非常简单粗暴:

  • 数据源通吃:不管你是拿 Vicon 录的高精度动捕(MoCap),还是拿手机拍的抖抖霍霍的视频(ViCap),甚至是设计师手K的动画(Animation),统统都能吃。
  • 拒绝“微操”:以前搞 RL(强化学习),最头疼的是设计 Reward。脚什么时候着地?手什么时候撑地?摩擦力多少?都要写进代码里。ZEST 直接把这些砍了——它不强制要求接触时序(Contact Schedule)。这意味着,机器人自己得去悟:“哦,原来这时候我该手撑地了,不然脸会痛。”
  • 零样本(Zero-shot):在仿真里练好,直接扔到真机上跑,不需要在真机上再微调。
结果就是,Atlas 在草地上做军人匍匐(Army Crawl),G1 这种小个子机器人能直接从视频里学会人类的芭蕾舞动作,Spot 狗甚至学会了连续后空翻。

2. 核心魔法:给机器人装个“隐形教练”
你可能会问,这种复杂的动作,直接端到端训练难道不会不收敛吗?机器人一上来肯定各种摔啊。

这里 ZEST 用了两个很聪明的 trick,我觉得是这篇 paper 的精华:

第一招: Assistive Wrench(上帝之手)
刚开始训练时,机器人肯定站都站不稳。ZEST 在仿真里给机器人加了一个虚拟的“外力”(Assistive Wrench)。这就好比练体操时,教练在旁边用手托着你的腰。

  • 刚开始学,你很菜,教练托得用力一点,让你先感受动作的轨迹。
  • 当你越来越熟练,教练的手就慢慢松开。
  • 最后考试(部署)的时候,教练彻底消失,你得自己飞。
这个机制通过“难度自适应”来调节,如果这一段动作机器人老是摔,系统就会自动把“教练的手”伸出来帮一把。

第二招:Adaptive Sampling(哪壶不开提哪壶)
一段长动作里,走路可能很简单,但中间那个“托马斯全旋”很难。如果随机采样训练,机器人可能把走路练了 10000 遍,旋转只练了 100 遍。ZEST 搞了个“挂科补考”机制。它把动作切成很多小片段,实时监控每个片段的失败率。如果第 5 秒的那个动作老是摔,系统就会疯狂让机器人重练这一段。简单的地方就少练点。这就保证了整套动作没有短板。

3. 把“闭链结构”这块硬骨头啃下来了
这部分是给咱们搞控制的硬核玩家看的。

大家知道,Atlas 和 G1 这种机器人,腿部关节为了爆发力,很多是设计成 Parallel-Linkage(闭链四连杆) 结构的。这种结构在仿真里简直是噩梦,算起来巨慢,而且数值容易不稳定。

很多之前的 paper 为了省事,直接把它简化成普通单关节。但在做高动态动作(比如后空翻)时,这种简化的动力学误差会直接导致真机炸机。

ZEST 团队(毕竟有波士顿动力的老法师坐镇)做了一套非常漂亮的近似建模(Armature Approximation)。他们通过投影把复杂的闭链动力学映射成一个等效的“虚拟关节惯量”,既保留了动力学的真实性,又没怎么增加计算量。甚至他们还给关节 PD 控制器的参数选取提供了一套理论公式,不再是纯靠“炼丹师”凭手感调参。

4. 为什么我觉得这很重要?
看完这篇 paper,我最大的感受是:人形机器人的“ChatGPT 时刻”可能真的要来了,但不是在于大脑,而是在于小脑。

以前我们觉得让机器人做个后空翻是“特技”,需要几十个工程师调几个月。ZEST 告诉我们,只要数据管道(Pipeline)搭得好,任何一个只要符合物理规律的动作,不管是人类做的,还是动画片里画的,机器人都能在几个小时内“学会”并部署。

这意味着什么?意味着未来机器人的技能库扩展速度将不再受限于工程师的手速,而是取决于我们能给它喂多少视频。

哪怕视频里的人动作有点滑步、甚至遮挡了,ZEST 证明了只要 RL 的正则化(Regularization)做得好,机器人自己能脑补出合理的物理动作。

这,才是通往“具身智能”的一张靠谱门票。



最后留个彩蛋:Paper 里有个对比,他们拿波士顿动力自家的经典 MPC 控制器和 ZEST 对比。结果在那种复杂的、接触点乱七八糟的动作(比如街舞)上,传统的 MPC 直接算崩了,而 ZEST 依然稳如老狗。

看来,哪怕是波士顿动力自己,也在革自己的命啊。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评论2

早睡Lv.9 发表于 昨天 15:15 | 查看全部
哇塞很棒哎,参加新春活动请在博客板块下选择“新春开源计划”发布文章哦
ustc-tiger楼主Lv.1 发表于 昨天 23:09 | 查看全部
早睡 发表于 2026-2-12 15:15
哇塞很棒哎,参加新春活动请在博客板块下选择“新春开源计划”发布文章哦 ...

好,那我这个不算了是吗

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2026 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2026 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表