返回列表 发布新帖

基于 Mobile ALOHA 的通用机械臂任务优化系统

292 0
发表于 2024-12-20 15:27:24 | 查看全部 阅读模式
我们基于开源系统 Mobile ALOHA,针对通用机械臂作业任务,开发了支持 任意自由度机械臂 的示教数据采集、模仿学习训练和推理测试的完整解决方案。

系统功能与架构

1. 数据采集模块

通过仿真或样机采集机械臂示教数据,输出为统一的 h5df 格式,具体包括:
视觉数据:三个相机的 RGB 图像(top, left_wrist, right_wrist),分辨率为 。
动作数据:双臂关节角(qpos)和控制动作(actions)。

该模块大幅简化了示教过程,并兼容多任务、多自由度的机械臂。

2. 模仿学习训练模块

基于 Transformer 架构,通过读取特定任务的 h5df 数据,训练机器人智能作业技能,生成模型权重 policy.ckpt。
输入:当前相机图片、当前关节角等观测值。
输出:预测的动作序列,关联观测值与动作,实现高效模仿学习。
•通过多任务协作,提升任务泛化能力,减少对大规模数据的依赖。

遥操作技术方案

实现方式

Moblie ALOHA:通过从动臂遥控,捕捉人类双手位置实时同步至机器人末端位姿。
Humanplus:采用影子系统进行遥控。
Open-TeleVision:远程操控后再进行自主操作。

技术细节

1.手臂控制
•使用 VR 设备捕捉手、头和手腕姿态,将数据传输至服务器。
•基于 Pinocchio 的闭环逆运动学(CLIK)解算关节角,控制机械臂。
2.视觉反馈
•配备双目相机,以 分辨率和 60Hz 频率传输立体视频流。

数据采集与训练方案

数据采集

采集机器人作业时的实时数据,包括:
•双目相机的 RGB 图像(分辨率 )。
•机械臂各部分的关节角、期望关节角等关键信息。

训练过程

1.输入:相机图像、关节角等实时观测数据。
2.Transformer 模型:利用注意力机制,将观测值与预测动作建立关联。
3.监督学习:以示教数据中的真实动作作为监督信号,训练模型预测动作能力。

通过引入 MT-ACT(基于 Transformer 的多任务模仿学习框架),模型架构进一步优化:
•使用 CVAE 学习动作序列的潜在编码 ,隐式识别数据模式。
•输入:潜在代码、任务语言嵌入、四个相机视图的图像嵌入。
•输出:下一时间步的动作块序列。

多任务泛化能力分析

我们对任务泛化能力强的代表性模型进行了研究,包括 RT-1RT-2RoboAgent
1.RT-1
•将输入编码为紧凑的 token 实现机器人实时控制。
2.RT-2
•基于 RT-1 的架构,将动作表示为文本 token,融入多模态训练数据中,进一步提升任务理解和泛化能力。
3.RoboAgent
•聚焦数据效率,在 7500 条操作轨迹中取得优异表现。
•利用语义增强与动作分块技术,降低数据需求的同时保持较强的任务泛化能力。

系统意义与未来方向

机器人在现实世界的训练数据采集难度较高且往往依赖手动操作。相比于计算机视觉或自然语言领域,机器人领域亟需通过多任务协作与泛化能力的提升,降低数据需求和开发门槛。

未来优化方向:
技术升级:结合多模态输入与高效注意力机制,提升模型精度。
团队建设:依托多学科协作,包括算法、硬件与控制领域的深度整合。
应用拓展:将系统推广至工业、医疗、教育等领域,实现更广泛的机器人自主作业应用。

如有兴趣参与或了解更多,欢迎与我们交流!

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表