返回列表 发布新帖

真实数据、仿真数据、互联网数据等不同类型数据的优缺点?

898 3
发表于 2024-9-9 15:25:31 | 查看全部 阅读模式
本帖最后由 jujubond 于 2024-9-13 10:07 编辑

在数据的世界里,每一种数据类型都有其独特的优势和局限,形成了我们所知的数据金字塔。在这个金字塔的基座,是海量的互联网数据,它们的获取成本微乎其微,但相应的,它们的数据价值也相对较低。随着我们向上移动,仿真数据居于中间层,而顶端则是珍贵的真实数据,它们无疑拥有最高的数据价值。面对这样的结构,我们面临的挑战是如何发现一条通用路径,既能降低综合成本,又能高效地处理各类操作任务。

为了探索这一问题,让我们从自动驾驶技术的角度切入。在自动驾驶技术的发展历程中,我们可以看到真实数据和仿真数据的结合使用。真实数据因其准确性和可靠性而至关重要,而仿真数据则在模拟那些难以在现实世界中捕获的场景方面发挥了不可替代的作用。特别是在自动驾驶领域,仿真技术能够让我们轻松重现那些罕见但关键的极端情况,例如,一只猫突然从路边窜出。这类corner case在现实世界中难以收集,但在仿真环境中却可以被高效地生成和分析。然而,在机器人技术领域,仿真corner case的挑战则更为复杂。例如,当我们处理一个柔软物体时,它可能会突然从手中滑落,而机器人必须在瞬间做出反应,既要适应物体的物理特性,又要迅速调整力度来抓住它。这种抓取物品的corner case往往涉及到复杂的物理属性,这在当前的仿真技术中仍然难以精确模拟。


北京大学的董豪认为,在机器人技术领域,我们通常关注两个关键维度:sim2real(仿真到现实)的转换和技能复杂性。对于真实数据的采集,sim2real的挑战几乎不存在,因为我们直接在现实世界中进行操作,物理交互和环境条件都是真实无误的。这使得真实数据成为机器人学习的理想选择,尤其是在技能复杂性方面,几乎没有限制。人类的遥操作能力,例如精准的手术或复杂的机械装配,都可以被机器人学习和模仿,从而采集到相应的数据。
然而,仿真数据在机器人技术中的应用则面临一系列挑战。视觉差异是一个问题,但通过数据增强等技术,我们可以在一定程度上弥补这一点。更为棘手的是物理差异,当前的仿真技术还难以精确模拟现实世界的物理特性。仿真的主要目的是通过规则化的方法自动化地采集轨迹数据,但我们依然很难在仿真环境中使用规则化方法来模拟复杂技能,那么仿真的价值就会大打折扣。如果规则化方法足够有效,我们完全可以在现实世界中直接应用,而无需依赖仿真。
至于互联网数据,它在机器人学习中的应用面临着动态环境的巨大差异。互联网数据可能经过多手处理,与机器人的实际应用场景可能存在差异。但这些数据的多样性和丰富性不容忽视,它们可以作为机器人预训练的宝贵资源。通过利用互联网数据,机器人可以在执行任务前获得广泛的知识和技能,为处理现实世界中的复杂情况做好准备。


那么与此同时呢,细的来讲,真实数据有2个维度,人工数据和规则数据,对于真实数据和人工数据,sim2real无差异,技能无上限,但是真实数据里面也可以用这个规则来采集,显然技能就有上限了,对于仿真人工数据,sim2real有差异,技能无上限,对于仿真规则数据,sim2real有差异,技能有上限,那么如果我们把所有的组合都放出来,可以看到下面这样一张图。


首先,我们会发现第一种方法是只使用真实数据。从第一性原理来看,如果有了足够量的真实数据,那么后续的仿真数据和互联网数据或许都可以不用,因为一个方法就能够解决问题,可谓从一而终。这样的话,以前那些基于仿真的研究可能就显得无用了。但是,要实现这一方案,首先需要找到一种低成本获取数据的方法。比如,有些人在东南亚雇人遥控美国工厂的机器人干活,通过这种方式一边赚钱一边收集数据,这或许是一种可行的方法。
其次,第二种方法是只使用仿真数据。只使用仿真数据有其好处,开发速度快,这也是现在很多人采用的方法。然而,这个方法可能存在上限,只能用于一些不涉及大量物理属性的简单任务。只使用互联网数据当然也不行,因为学习互联网数据无法直接映射到机器人上。而将机器人真实数据和仿真数据结合起来,是一个非常好的方法。但这里需要考虑如何将这两种数据进行结合,以及采用哪些数据对齐技术等问题。最后,未来可能会采用什么数据都用的方式。因为数据肯定是有用的,只不过其作用大小不同而已。关键在于如何发挥出不同数据的价值。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评论3

VitaLv.9 发表于 2024-9-9 15:44:16 | 查看全部
👍
jujubondLv.2 发表于 2024-9-23 15:08:02 | 查看全部
大概算了下,一条真实数据的获取成本100块??好贵。。。
jujubondLv.2 发表于 2024-9-23 15:09:07 | 查看全部
jujubond 发表于 2024-9-23 15:08
大概算了下,一条真实数据的获取成本100块??好贵。。。

那么问题来了,如何降本

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表