我们基于开源系统 Mobile ALOHA,针对通用机械臂作业任务,开发了支持 任意自由度机械臂 的示教数据采集、模仿学习训练和推理测试的完整解决方案。
系统功能与架构
1. 数据采集模块
通过仿真或样机采集机械臂示教数据,输出为统一的 h5df 格式,具体包括: •视觉数据:三个相机的 RGB 图像(top, left_wrist, right_wrist),分辨率为 。 •动作数据:双臂关节角(qpos)和控制动作(actions)。
该模块大幅简化了示教过程,并兼容多任务、多自由度的机械臂。
2. 模仿学习训练模块
基于 Transformer 架构,通过读取特定任务的 h5df 数据,训练机器人智能作业技能,生成模型权重 policy.ckpt。 •输入:当前相机图片、当前关节角等观测值。 •输出:预测的动作序列,关联观测值与动作,实现高效模仿学习。 •通过多任务协作,提升任务泛化能力,减少对大规模数据的依赖。
遥操作技术方案
实现方式
•Moblie ALOHA:通过从动臂遥控,捕捉人类双手位置实时同步至机器人末端位姿。 •Humanplus:采用影子系统进行遥控。 •Open-TeleVision:远程操控后再进行自主操作。
技术细节
1.手臂控制 •使用 VR 设备捕捉手、头和手腕姿态,将数据传输至服务器。 •基于 Pinocchio 的闭环逆运动学(CLIK)解算关节角,控制机械臂。 2.视觉反馈 •配备双目相机,以 分辨率和 60Hz 频率传输立体视频流。
数据采集与训练方案
数据采集
采集机器人作业时的实时数据,包括: •双目相机的 RGB 图像(分辨率 )。 •机械臂各部分的关节角、期望关节角等关键信息。
训练过程
1.输入:相机图像、关节角等实时观测数据。 2.Transformer 模型:利用注意力机制,将观测值与预测动作建立关联。 3.监督学习:以示教数据中的真实动作作为监督信号,训练模型预测动作能力。
通过引入 MT-ACT(基于 Transformer 的多任务模仿学习框架),模型架构进一步优化: •使用 CVAE 学习动作序列的潜在编码 ,隐式识别数据模式。 •输入:潜在代码、任务语言嵌入、四个相机视图的图像嵌入。 •输出:下一时间步的动作块序列。
多任务泛化能力分析
我们对任务泛化能力强的代表性模型进行了研究,包括 RT-1、RT-2 和 RoboAgent: 1.RT-1 •将输入编码为紧凑的 token 实现机器人实时控制。 2.RT-2 •基于 RT-1 的架构,将动作表示为文本 token,融入多模态训练数据中,进一步提升任务理解和泛化能力。 3.RoboAgent •聚焦数据效率,在 7500 条操作轨迹中取得优异表现。 •利用语义增强与动作分块技术,降低数据需求的同时保持较强的任务泛化能力。
系统意义与未来方向
机器人在现实世界的训练数据采集难度较高且往往依赖手动操作。相比于计算机视觉或自然语言领域,机器人领域亟需通过多任务协作与泛化能力的提升,降低数据需求和开发门槛。
未来优化方向: •技术升级:结合多模态输入与高效注意力机制,提升模型精度。 •团队建设:依托多学科协作,包括算法、硬件与控制领域的深度整合。 •应用拓展:将系统推广至工业、医疗、教育等领域,实现更广泛的机器人自主作业应用。
如有兴趣参与或了解更多,欢迎与我们交流!
|