文档
博客
论坛
BBS
资讯
活动
RoboHub(beta)
关于社区
登录
开发者论坛 - OpenLoong
»
论坛
›
人形机器人大世界
›
智能交互
›
模仿学习
›
让机器人模仿人类动作的终极系统:HumanPlus全栈式学习 ...
返回列表
发布新帖
让机器人模仿人类动作的终极系统:HumanPlus全栈式学习平台揭秘
286
0
kiara
Lv.7
发表于 2024-11-8 09:42:54
|
查看全部
阅读模式
本帖最后由 kiara 于 2024-11-8 09:44 编辑
简介
你是否想过,机器人可以像人类一样学习运动技能和自主执行任务?本文将为你揭秘一款名为
HumanPlus
的全栈式系统,它不仅能让机器人从人类动作数据中学习,还能在实际场景中自主完成复杂任务。🎯
通过
HumanPlus
,我们可以实现让人形机器人模仿人类动作。这是如何做到的呢?首先,通过部署低级别控制策略,使得机器人能够通过单个RGB摄像头实时模仿人类的运动。这是通过一种叫做
Humanoid Shadowing Transformer
的技术来实现的,该技术使用最先进的人体和手部姿态估计算法来实时估计人体运动,并将其重定向到机器人身上,从而在真实世界中实现高效的数据收集和模仿学习。
1.1 动作预测:UMI 和 Diffusion Policy
HumanPlus 系统利用影子技术(shadowing)收集数据后,进一步通过
监督行为
克隆
(Supervised Behavior Cloning)
来训练基于视觉的技能策略。该策略基于机器人双目RGB摄像头捕捉的自我中心视角输入,预测机器人身体和手部的目标姿态。🤖
该系统引入了一种
基于Transformer架构
的模型,它融合了动作预测与前向动力学预测,确保机器人在处理视觉任务时,不会忽略图像特征,从而提升性能。通过 40 次人类演示的训练,机器人能以 60-100% 的成功率完成多种任务,如穿鞋、行走、卸载物体、折叠衣物、打字、甚至与其他机器人握手。
1.2 系统架构:Low-Level 控制策略与动作预测策略
HumanPlus 系统依赖
Humanoid Shadowing Transformer (HST)
来执行低级别控制策略。其输入包括:
•
本体感知
:机器人自身的状态,如根部状态、关节位置和速度。
•
目标姿态
:来自人类运动的目标关节角度和速度。
通过这些输入,策略网络输出19维的关节位置设定,用于控制机器人各个身体部位的动作。基于1000Hz的PD控制器进行扭矩转换,并以50Hz的频率运行,以适应各种复杂环境。
模仿学习的高层策略:Humanoid Imitation Transformer (HIT)
用于模仿学习的
仅
解码器
Transformer
,HIT 接收:
• 机器人两个摄像头捕获的当前RGB图像特征。
• 机器人本体感受数据。
• 时间步位置嵌入。
HIT 输出未来50个时间步的目标姿态预测,以及对应的RGB图像特征,最终由 HST 控制器将这些目标动作执行到机器人身上。
硬件平台搭建
HumanPlus 系统的硬件规格也是极为强悍,基于
Unitree H1 机器人
构建:
•
33个自由度
:19个身体关节(腿5个,手臂4个,腰部1个),每只手6个自由度。
•
身高180cm,体重87kg
。
•
手指力量
可达 10N,
手臂可搬运 7.5kg
重物。
•
腿部电机峰值扭矩
:360Nm。
•
双目摄像头
:640x480分辨率,50度视野角,160mm 瞳距,支持自我中心视觉数据采集。
运动模仿学习
3.1 离线人体运动数据准备
HumanPlus 采用
AMASS 数据集
作为人体运动的离线训练数据,每一帧人体姿态都通过
SMPL-X 模型
参数化表示。🤹♂️
3.2 人体到机器人的运动重定向
•
身体关节
:直接复制 SMPL-X 模型中的相应关节角度到机器人。
•
手部关节
:机器人手指仅有1个自由度,通过取SMPL-X中对应手指中间关节的角度来设置;手腕旋转则由前臂和手部的相对旋转计算得到。
3.3 低级运动策略训练
HumanPlus 采用
Transformer 结构
的策略网络来执行低级运动控制,称为
Humanoid Shadowing Transformer
。使用
PPO 算法
在模拟环境中训练,并引入了物理参数的域随机化,如关节摩擦力、电机力矩等,以提高策略的鲁棒性。⚙️
3.4 运动模仿部署
将训练好的模型部署到真实机器人上,通过
RGB摄像头
采集人类动作并实时进行姿态重定向。机器人通过 HST 控制器调整关节角度,实现自然流畅的模仿动作。
自主操作学习
4.1 视觉操作策略训练
HumanPlus 系统利用模仿学习数据,通过
监督学习
训练高层视觉操作策略
Humanoid Imitation Transformer (HIT)
。该策略结合以下输入:
• 重建的人体关节角度(来自 HST)。
• 机器人双目摄像头的RGB图像特征(通过 ResNet 编码)。
• 时间步位置嵌入。
HIT 预测未来50个时间步的目标关节角度,并在视觉特征空间内施加额外监督,以更好地利用视觉信息进行任务执行。✨
总结
HumanPlus
通过先进的影子技术和Transformer架构,实现了机器人从人类演示中学习并执行复杂任务的能力。其独特的系统架构和硬件配置,使其在运动模仿和自主操作方面表现出色,不仅能够帮助机器人在现实世界中完成复杂操作,还显著缩短了从模拟到真实的部署时间。
是否已经迫不及待想看HumanPlus在真实场景中的表现?快来关注我们的最新动态!
📹🤖
觉得有趣吗?快分享给你的朋友们,让更多人了解机器人模仿学习的前沿科技吧! 🔗
回复
举报
返回列表
发布新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
kiara
Lv.7 版主
主题
8
回帖
0
积分
138
Ta的主页
发消息
浏览过的版块
智能交互
Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by
Discuz!
关注B站
关注抖音
关注微信公众号
Copyright © 2025
开发者论坛 - OpenLoong
版权所有
All Rights Reserved.
关灯
在本版发帖
扫一扫添加微信客服
返回顶部
快速回复
返回顶部
返回列表