返回列表 发布新帖

让机器人模仿人类动作的终极系统:HumanPlus全栈式学习平台揭秘

286 0
发表于 2024-11-8 09:42:54 | 查看全部 阅读模式
本帖最后由 kiara 于 2024-11-8 09:44 编辑

  • 简介

你是否想过,机器人可以像人类一样学习运动技能和自主执行任务?本文将为你揭秘一款名为 HumanPlus 的全栈式系统,它不仅能让机器人从人类动作数据中学习,还能在实际场景中自主完成复杂任务。🎯

通过 HumanPlus,我们可以实现让人形机器人模仿人类动作。这是如何做到的呢?首先,通过部署低级别控制策略,使得机器人能够通过单个RGB摄像头实时模仿人类的运动。这是通过一种叫做 Humanoid Shadowing Transformer 的技术来实现的,该技术使用最先进的人体和手部姿态估计算法来实时估计人体运动,并将其重定向到机器人身上,从而在真实世界中实现高效的数据收集和模仿学习。

1.1 动作预测:UMI 和 Diffusion Policy

HumanPlus 系统利用影子技术(shadowing)收集数据后,进一步通过 监督行为克隆(Supervised Behavior Cloning) 来训练基于视觉的技能策略。该策略基于机器人双目RGB摄像头捕捉的自我中心视角输入,预测机器人身体和手部的目标姿态。🤖

该系统引入了一种 基于Transformer架构 的模型,它融合了动作预测与前向动力学预测,确保机器人在处理视觉任务时,不会忽略图像特征,从而提升性能。通过 40 次人类演示的训练,机器人能以 60-100% 的成功率完成多种任务,如穿鞋、行走、卸载物体、折叠衣物、打字、甚至与其他机器人握手。

1.2 系统架构:Low-Level 控制策略与动作预测策略

HumanPlus 系统依赖 Humanoid Shadowing Transformer (HST) 来执行低级别控制策略。其输入包括:

        •        本体感知:机器人自身的状态,如根部状态、关节位置和速度。
        •        目标姿态:来自人类运动的目标关节角度和速度。

通过这些输入,策略网络输出19维的关节位置设定,用于控制机器人各个身体部位的动作。基于1000Hz的PD控制器进行扭矩转换,并以50Hz的频率运行,以适应各种复杂环境。

模仿学习的高层策略:Humanoid Imitation Transformer (HIT)

用于模仿学习的 解码器Transformer,HIT 接收:

        •        机器人两个摄像头捕获的当前RGB图像特征。
        •        机器人本体感受数据。
        •        时间步位置嵌入。

HIT 输出未来50个时间步的目标姿态预测,以及对应的RGB图像特征,最终由 HST 控制器将这些目标动作执行到机器人身上。

  • 硬件平台搭建

HumanPlus 系统的硬件规格也是极为强悍,基于 Unitree H1 机器人 构建:

        •        33个自由度:19个身体关节(腿5个,手臂4个,腰部1个),每只手6个自由度。
        •        身高180cm,体重87kg
        •        手指力量 可达 10N,手臂可搬运 7.5kg 重物。
        •        腿部电机峰值扭矩:360Nm。
        •        双目摄像头:640x480分辨率,50度视野角,160mm 瞳距,支持自我中心视觉数据采集。

  • 运动模仿学习

3.1 离线人体运动数据准备

HumanPlus 采用 AMASS 数据集 作为人体运动的离线训练数据,每一帧人体姿态都通过 SMPL-X 模型 参数化表示。🤹♂️

3.2 人体到机器人的运动重定向

        •        身体关节:直接复制 SMPL-X 模型中的相应关节角度到机器人。
        •        手部关节:机器人手指仅有1个自由度,通过取SMPL-X中对应手指中间关节的角度来设置;手腕旋转则由前臂和手部的相对旋转计算得到。

3.3 低级运动策略训练

HumanPlus 采用 Transformer 结构 的策略网络来执行低级运动控制,称为 Humanoid Shadowing Transformer。使用 PPO 算法 在模拟环境中训练,并引入了物理参数的域随机化,如关节摩擦力、电机力矩等,以提高策略的鲁棒性。⚙️

3.4 运动模仿部署

将训练好的模型部署到真实机器人上,通过 RGB摄像头 采集人类动作并实时进行姿态重定向。机器人通过 HST 控制器调整关节角度,实现自然流畅的模仿动作。

  • 自主操作学习

4.1 视觉操作策略训练

HumanPlus 系统利用模仿学习数据,通过 监督学习 训练高层视觉操作策略 Humanoid Imitation Transformer (HIT)。该策略结合以下输入:

        •        重建的人体关节角度(来自 HST)。
        •        机器人双目摄像头的RGB图像特征(通过 ResNet 编码)。
        •        时间步位置嵌入。

HIT 预测未来50个时间步的目标关节角度,并在视觉特征空间内施加额外监督,以更好地利用视觉信息进行任务执行。✨

  • 总结

HumanPlus 通过先进的影子技术和Transformer架构,实现了机器人从人类演示中学习并执行复杂任务的能力。其独特的系统架构和硬件配置,使其在运动模仿和自主操作方面表现出色,不仅能够帮助机器人在现实世界中完成复杂操作,还显著缩短了从模拟到真实的部署时间。

是否已经迫不及待想看HumanPlus在真实场景中的表现?快来关注我们的最新动态! 📹🤖

觉得有趣吗?快分享给你的朋友们,让更多人了解机器人模仿学习的前沿科技吧! 🔗


回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表