你有没有看过机器人抓个杯子能抓偏三次、开个抽屉像拆家现场?别怪它笨,其实它根本没弄明白“抓”和“开”这两个动作到底是什么意思。就像有人教你跳舞却没教节拍——你脚再灵也只能乱蹦。 但好消息来了!科研大佬们造出一个新模型,名叫 RoboACTS CLIP,这是一个专门为机器人“开窍”的视频预训练模型,让它终于能理解什么叫“一个动作一个动作来”。 ✨ 机器人看视频,也需要“断句”!首先,问题出在哪?以前的视觉语言大模型(比如 VAMS)虽然看得多,词也会说,但有两个毛病: 于是,科学家决定给它“上课补课”。他们搞了一个严选动作数据集,从叫 RH20T 的机器人视频库里,用大语言模型 DeepSeek-21 挑出那些只干一件事的视频,比如“只抓杯子”、“只点按钮”,不夹带私货,确保每一条视频就讲清楚一个动作。 最后筛出了20万条干净利落的动作教学视频,堪比机器人版“动作分解教学抖音合集”! 🧠 这AI不是“全看”,而是“看动作”模型的主架构有两个超有脑子的模块:
🌀 持续差分 Transformer(S-DiffFormer)
—— 简单来说,它让机器人别总盯着不动的背景,而是重点关注“变化的部分”。
就像人看视频会盯着“谁在动”,它通过对比前后帧,专挑“动作部分”放大处理,比如杯子怎么被拿起来的、抽屉怎么一点点被拉开,这些运动轨迹都被清晰捕捉。
🔍 特征解耦模块
—— 以前机器人看到视频,会一锅乱炖地记下“这有杯子”、“那有手”、“背景有冰箱”,结果动作理解全乱套。
现在它把视觉信息拆分成三部分:“机器人长啥样”、“动了什么动作”、“动的是啥对象”,互不打扰,各司其职。
再通过一个“特征重组机制”,把这三者重新组合成一句“标准描述”,比如“机器人打开抽屉”,确保图像理解和文本语义能完美对齐。就像把零件拆开擦干净,再装回去,还能自己念说明书! 🧪 机器人考试,直接拿第一实验放在一个叫 FrankaKitchen 的虚拟厨房里测试(还有真机器人登场),在抓取、推动、打开抽屉等四项任务中,RoboACTS CLIP 的成功率碾压老前辈们,平均提高了7.65%,最高多出12%。
尤其是“打开抽屉”这种需要“前推、停顿、拉开”节奏感强的任务,它表现得特别稳——简直像是厨房舞王! 消融实验(就是“故意拔掉模块看看会不会崩”)也说明了: 🚀 结尾彩蛋:让机器人也懂“拿杯子≠倒水”这项研究首次把“动作时序”和“视觉语义解耦”结合在一起,真正解决了机器人“看得懂却做不对”的顽疾。以后机器人终于能分清“拿起杯子”和“倒杯子”的细微差别,不会再一把端起整个水壶来给你洗脚…… 总之,RoboACTS CLIP 不再让机器人死记硬背动作,而是学会像人一样“理解动作”。它让未来的机器人不仅能干活,还能干得又准又优雅,离成为居家好帮手又近了一步!
|