利用算法标注或补全多模态数据:对于缺乏深度信息的视频数据集,使用深度估计算法(如 ZoeDepth)来估计每一帧的深度信息,同时使用光流估计算法(如 RAFT)来捕捉视频中物体的运动。利用现有的文本指令和深度信息,生成 3D 边界框、目标图像、深度图和点云等 3D 相关注释。这些注释通过预训练的模型(如 Grounded-SAM)和自然语言处理工具(如 Spacy)来提取。开发新颖且可扩展的方法,从原始数据中自动生成场景描述和真实轨迹,可以自动标注视频帧和传感器信号以生成轨迹和其他标签,并且对视频帧应用自动描述生成,来生成行为和推理的描述。
利用指令模板或数据增强。指令模板是一种预定义的文本格式,用于生成结构化的指令和问题,包含了特定的占位符(如 <start_location>、<end_location > 等),在实际应用中会被具体的 3D 场景信息、物体名称、位置和动作指令所替代,通过替换这些占位符,可以生成大量的、针对性的指令用于训练模型理解和执行不同的物理操作任务。数据增强可以基于数据本身进行操作,比如几何变换、颜色变换等,可以基于样本组合的方法,比如Mixup、SamplePairing等,可以基于生成模型的增强方法,比如GAN、VAE等,可以基于模拟与仿真的增强方法,建立机器人和环境的物理模型,通过改变物理模型参数和环境场景来获取更多情况下的具身智能数据。