返回列表 发布新帖

如何打造一个高质量的VLA模型训练数据集?谈谈个人理解

1433 3
发表于 2024-9-19 10:41:32 | 查看全部 阅读模式
本帖最后由 jujubond 于 2024-9-19 10:44 编辑

VLA 模型通常指视觉 - 语言 - 动作(Visual-Language-Action)模型,是一种多模态模型,旨在结合视觉、语言和动作模态的信息,使机器人或智能体能够理解语言指令、感知视觉环境并生成相应的动作来完成任务。训练一个有效的 VLA 模型需要大量的多模态数据,包括图像、文本和对应的动作标注。收集和标注这些数据是一项耗时、费力且成本高昂的工作,特别是对于一些复杂的任务和罕见的场景,数据的获取可能会受到限制。针对如何有效构建高质量的VLA模型训练数据集,以下谈谈个人理解:
  • 人工数据采集:多个采集方法进行采集,目前人形机器人数据更多的是通过遥操作来采集,比如主从臂遥操作、VR遥操作、动捕遥操作、远程遥操作等。斯坦福的UMI方式,为我们提供了便携的、低成本和信息丰富的数据采集方式。Open-TeleVision、HumanPlus等都提供了更加新颖的方法,基于开源项目结合机器人完成数据采集。
  • 利用现有基础数据集:从多个来源收集数据,包括机器人操作数据集(如从 Open-X Embodiment 数据集收集的部分)、含深度信息的数据集(如 DOBB-E 和 RH20T)以及仿真数据集(如 RLBench、Calvin 等),还收集了人类与物体互动的数据集(如 HOI4D)。这些数据集包含了真实世界和合成数据,可以基于这些数据来当作我们模型数据集的基础数据。
  • 利用算法标注或补全多模态数据:对于缺乏深度信息的视频数据集,使用深度估计算法(如 ZoeDepth)来估计每一帧的深度信息,同时使用光流估计算法(如 RAFT)来捕捉视频中物体的运动。利用现有的文本指令和深度信息,生成 3D 边界框、目标图像、深度图和点云等 3D 相关注释。这些注释通过预训练的模型(如 Grounded-SAM)和自然语言处理工具(如 Spacy)来提取。开发新颖且可扩展的方法,从原始数据中自动生成场景描述和真实轨迹,可以自动标注视频帧和传感器信号以生成轨迹和其他标签,并且对视频帧应用自动描述生成,来生成行为和推理的描述。
  • 利用指令模板或数据增强。指令模板是一种预定义的文本格式,用于生成结构化的指令和问题,包含了特定的占位符(如 <start_location>、<end_location > 等),在实际应用中会被具体的 3D 场景信息、物体名称、位置和动作指令所替代,通过替换这些占位符,可以生成大量的、针对性的指令用于训练模型理解和执行不同的物理操作任务。数据增强可以基于数据本身进行操作,比如几何变换、颜色变换等,可以基于样本组合的方法,比如Mixup、SamplePairing等,可以基于生成模型的增强方法,比如GAN、VAE等,可以基于模拟与仿真的增强方法,建立机器人和环境的物理模型,通过改变物理模型参数和环境场景来获取更多情况下的具身智能数据。

VLA 模型的性能与训练数据集的质量和特性紧密相关。我们尝试从多个方面去构建一个合适的数据集,但仍存在许多疑惑。例如,如何精确地平衡不同来源数据(如来自真实场景、模拟环境以及各种标注数据)的比例以达到最佳的模型训练效果呢?如何评估数据集是否真正满足模型训练需求?是否存在一些通用的指标或者测试方法?并且,当模型性能出现问题时,我们如何确定是数据集的构建不合理,还是模型架构本身的缺陷?欢迎大家就此展开讨论,共同推动 VLA 模型的发展。











评论3

lijiansenLv.7 发表于 2024-9-19 15:32:34 | 查看全部
华南人王Lv.7 发表于 2024-9-19 16:59:01 | 查看全部
jujubond楼主Lv.2 发表于 2024-9-23 15:01:56 | 查看全部
正在数据采集中,数据集后期会开源,开源方式地址等敬请等待。

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表