别再瞎动啦！这个AI教机器人怎么“优雅做事”

胡言乱语阿瑞基 · 发表于 2025-4-18 10:18:56

你有没有看过机器人抓个杯子能抓偏三次、开个抽屉像拆家现场？别怪它笨，其实它根本没弄明白“抓”和“开”这两个动作到底是什么意思。就像有人教你跳舞却没教节拍——你脚再灵也只能乱蹦。

但好消息来了！科研大佬们造出一个新模型，名叫 RoboACTS CLIP，这是一个专门为机器人“开窍”的视频预训练模型，让它终于能理解什么叫“一个动作一个动作来”。

✨ 机器人看视频，也需要“断句”！

首先，问题出在哪？以前的视觉语言大模型（比如 VAMS）虽然看得多，词也会说，但有两个毛病：

视频里动作接连发生，它没节奏感——就像看人做饭，它看着切菜、炒菜、摆盘都当成一锅炖了；
动作和环境搅在一起，比如机器人在厨房开抽屉，它分不清是“抽屉在动”还是“地板在晃”。

于是，科学家决定给它“上课补课”。他们搞了一个严选动作数据集，从叫 RH20T 的机器人视频库里，用大语言模型 DeepSeek-21 挑出那些只干一件事的视频，比如“只抓杯子”、“只点按钮”，不夹带私货，确保每一条视频就讲清楚一个动作。

最后筛出了20万条干净利落的动作教学视频，堪比机器人版“动作分解教学抖音合集”！

🧠 这AI不是“全看”，而是“看动作”

模型的主架构有两个超有脑子的模块：

🌀 持续差分 Transformer（S-DiffFormer）
—— 简单来说，它让机器人别总盯着不动的背景，而是重点关注“变化的部分”。
就像人看视频会盯着“谁在动”，它通过对比前后帧，专挑“动作部分”放大处理，比如杯子怎么被拿起来的、抽屉怎么一点点被拉开，这些运动轨迹都被清晰捕捉。

🔍 特征解耦模块
—— 以前机器人看到视频，会一锅乱炖地记下“这有杯子”、“那有手”、“背景有冰箱”，结果动作理解全乱套。
现在它把视觉信息拆分成三部分：“机器人长啥样”、“动了什么动作”、“动的是啥对象”，互不打扰，各司其职。
再通过一个“特征重组机制”，把这三者重新组合成一句“标准描述”，比如“机器人打开抽屉”，确保图像理解和文本语义能完美对齐。就像把零件拆开擦干净，再装回去，还能自己念说明书！

🧪 机器人考试，直接拿第一

实验放在一个叫 FrankaKitchen 的虚拟厨房里测试（还有真机器人登场），在抓取、推动、打开抽屉等四项任务中，RoboACTS CLIP 的成功率碾压老前辈们，平均提高了7.65%，最高多出12%。
尤其是“打开抽屉”这种需要“前推、停顿、拉开”节奏感强的任务，它表现得特别稳——简直像是厨房舞王！

消融实验（就是“故意拔掉模块看看会不会崩”）也说明了：

拿掉“动作追踪模块”？性能掉一半！
拿掉“特征解耦”？性能直接掉65%！
这俩模块就像双核处理器，谁都不能下岗！

🚀 结尾彩蛋：让机器人也懂“拿杯子≠倒水”

这项研究首次把“动作时序”和“视觉语义解耦”结合在一起，真正解决了机器人“看得懂却做不对”的顽疾。以后机器人终于能分清“拿起杯子”和“倒杯子”的细微差别，不会再一把端起整个水壶来给你洗脚……

总之，RoboACTS CLIP 不再让机器人死记硬背动作，而是学会像人一样“理解动作”。它让未来的机器人不仅能干活，还能干得又准又优雅，离成为居家好帮手又近了一步！

别再瞎动啦！这个AI教机器人怎么“优雅做事”

回复

浏览过的版块