返回列表 发布新帖

别再瞎动啦!这个AI教机器人怎么“优雅做事”

113 0
发表于 2025-4-18 10:18:56 | 查看全部 阅读模式
你有没有看过机器人抓个杯子能抓偏三次、开个抽屉像拆家现场?别怪它笨,其实它根本没弄明白“抓”和“开”这两个动作到底是什么意思。就像有人教你跳舞却没教节拍——你脚再灵也只能乱蹦。
但好消息来了!科研大佬们造出一个新模型,名叫 RoboACTS CLIP,这是一个专门为机器人“开窍”的视频预训练模型,让它终于能理解什么叫“一个动作一个动作来”。
✨ 机器人看视频,也需要“断句”!
首先,问题出在哪?以前的视觉语言大模型(比如 VAMS)虽然看得多,词也会说,但有两个毛病:
  • 视频里动作接连发生,它没节奏感——就像看人做饭,它看着切菜、炒菜、摆盘都当成一锅炖了;
  • 动作和环境搅在一起,比如机器人在厨房开抽屉,它分不清是“抽屉在动”还是“地板在晃”。

于是,科学家决定给它“上课补课”。他们搞了一个严选动作数据集,从叫 RH20T 的机器人视频库里,用大语言模型 DeepSeek-21 挑出那些只干一件事的视频,比如“只抓杯子”、“只点按钮”,不夹带私货,确保每一条视频就讲清楚一个动作。
最后筛出了20万条干净利落的动作教学视频,堪比机器人版“动作分解教学抖音合集”!
🧠 这AI不是“全看”,而是“看动作”
模型的主架构有两个超有脑子的模块:

🌀 持续差分 Transformer(S-DiffFormer)
—— 简单来说,它让机器人别总盯着不动的背景,而是重点关注“变化的部分”。
就像人看视频会盯着“谁在动”,它通过对比前后帧,专挑“动作部分”放大处理,比如杯子怎么被拿起来的、抽屉怎么一点点被拉开,这些运动轨迹都被清晰捕捉。

🔍 特征解耦模块
—— 以前机器人看到视频,会一锅乱炖地记下“这有杯子”、“那有手”、“背景有冰箱”,结果动作理解全乱套。
现在它把视觉信息拆分成三部分:“机器人长啥样”、“动了什么动作”、“动的是啥对象”,互不打扰,各司其职。
再通过一个“特征重组机制”,把这三者重新组合成一句“标准描述”,比如“机器人打开抽屉”,确保图像理解和文本语义能完美对齐。就像把零件拆开擦干净,再装回去,还能自己念说明书!

🧪 机器人考试,直接拿第一
实验放在一个叫 FrankaKitchen 的虚拟厨房里测试(还有真机器人登场),在抓取、推动、打开抽屉等四项任务中,RoboACTS CLIP 的成功率碾压老前辈们,平均提高了7.65%,最高多出12%。
尤其是“打开抽屉”这种需要“前推、停顿、拉开”节奏感强的任务,它表现得特别稳——简直像是厨房舞王!
消融实验(就是“故意拔掉模块看看会不会崩”)也说明了:
  • 拿掉“动作追踪模块”?性能掉一半!
  • 拿掉“特征解耦”?性能直接掉65%!
    这俩模块就像双核处理器,谁都不能下岗!


🚀 结尾彩蛋:让机器人也懂“拿杯子≠倒水”
这项研究首次把“动作时序”和“视觉语义解耦”结合在一起,真正解决了机器人“看得懂却做不对”的顽疾。以后机器人终于能分清“拿起杯子”和“倒杯子”的细微差别,不会再一把端起整个水壶来给你洗脚……
总之,RoboACTS CLIP 不再让机器人死记硬背动作,而是学会像人一样“理解动作”。它让未来的机器人不仅能干活,还能干得又准又优雅,离成为居家好帮手又近了一步!

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表