Distracted Robot: How Visual Clutter Undermine Robotic Manipulation
- 文章概括
- ABSTRACT
- I. INTRODUCTION
- II. RELATED WORKS
- III. EVALUATION PROTOCOL
- A. Problem formulation
- B. Clutter measure
- C. Scenario Generation
- IV. EXPERIMENTS
- A. Experimental Setup
- B. Evaluation in Simulated World
- C. 真实世界中的评估
- V. DOES DATA HELP WITH CLUTTER SCENES?
- VI. CONCLUSION
文章概括
引用:
@article{rasouli2025distracted,title={Distracted Robot: How Visual Clutter Undermine Robotic Manipulation},author={Rasouli, Amir and Alban, Montgomery and Pakdamansavoji, Sajjad and Li, Zhiyuan and Zhang, Zhanguang and Wu, Aaron and Zhao, Xuan},journal={arXiv preprint arXiv:2511.22780},year={2025}}Rasouli, A., Alban, M., Pakdamansavoji, S., Li, Z., Zhang, Z., Wu, A. and Zhao, X., 2025. Distracted Robot: How Visual Clutter Undermine Robotic Manipulation. arXiv preprint arXiv:2511.22780.主页:
原文:
代码、数据和视频:
系列文章:
请在《 《《文章》 》》专栏中查找
宇宙声明!
引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!
ABSTRACT
在这项工作中,我们提出了一套评估协议,用于检验机器人操作策略在杂乱场景中的性能。与以往工作不同,我们从心理物理学的视角开展评估,因此我们采用了一种统一的杂乱度量方法,该方法同时考虑了环境因素,以及干扰物的数量、特征和排列方式。利用这一度量,我们在高拟真仿真环境和真实世界中系统地构建了评估场景,并对操作策略,尤其是视觉-语言-动作(VLA)模型,开展了大规模实验。我们的实验突出表明,场景杂乱会产生显著影响,最多可使这些策略的性能下降34%;同时实验还表明,尽管不同VLA策略在各项任务上的平均表现相近,但它们各自存在独特的脆弱性,并且在什么样的场景能够成功这一点上,一致性相对较低。我们进一步表明,我们提出的杂乱度量是性能退化的有效指标,并从干扰物的数量及其遮挡影响两个方面分析了干扰物带来的作用。最后,我们表明,在增强后的数据上进行微调虽然有效,但并不能同等程度地弥补杂乱对性能造成的所有负面影响。
I. INTRODUCTION
机器人在现实世界中部署的关键要求之一,是对杂乱环境以及环境特征变化具有鲁棒性。以往研究表明,由干扰物造成的杂乱会对机器人策略的性能产生不利影响,其中,干扰物是指那些对完成任务没有任何作用的非目标物体[1]–[4]。场景中的干扰物可能会由于遮挡导致的部分可观测性而引起感知错误,也可能由于语义相似性或视觉相似性而造成目标混淆,或者导致与任务建立错误关联,亦或造成阻碍(见图1)。
图1:一个典型的操作场景,在该场景中,机器人被要求取回一个物体(例如,一个苹果)。 绿色轨迹表示预期的行为,黑色轨迹表示实际执行的行为。 场景中的干扰物可能会导致目标混淆(例如,把橙子误认为目标),同时还可能引发碰撞和抓取失败。
鉴于环境上下文对机器人策略成功与否具有重要影响,设计有效的评估协议以系统地识别这些策略在不同环境条件下的局限性,显得至关重要。 现有的大多数评估协议主要关注机器人技能的类型、目标物体的选择,以及在不同输入条件下的推理能力类型[5]–[7]。 这些工作并未专门研究干扰物的影响,而且它们在场景上下文多样化方面——例如不同干扰物的存在及其排列方式——往往不足,并且通常是在未明确说明标准的情况下任意设置的。 这些评估主要关注任务完成的成功率[8], [9]、效率[10], [11],或者策略对环境进行推理的能力[12], [13]。 最近的一项研究[1]考察了环境杂乱的影响,考虑了干扰物、目标特征、光照、相机位姿以及背景纹理等因素的作用。 作者表明,这些因素中的每一个都会影响操作策略。 然而,这项研究存在两个不足之处。 干扰物被视为单一因素,因此其属性、数量或在场景中的排列方式对策略性能的影响无法被量化。 此外,那些导致杂乱的环境因素是被孤立地加以考虑的,因此它们的叠加效应被忽略了。 例如,相机位姿或光照的影响会随着物体类型或尺寸的不同而发生变化。
为了解决这些局限性,我们提出了一种用于多样化场景上下文中机器人操作策略的新型评估协议。 我们从心理物理学的视角来处理这一问题,并利用一种统一的杂乱度量[14]来表征包含多种类型干扰物的实验场景。我们设计了包含多样干扰物且数量不同的场景,并引入部分遮挡,同时保证目标物体是可达的,而不需要为了接触目标而重新布置场景。我们在一个高拟真模拟器SIMPLER[15]以及真实世界环境中开展了大规模评估,部署了5种最先进的视觉-语言-动作(VLA)操作策略来执行多种操作任务。 我们对这些策略的性能进行了深入分析,以突出杂乱的影响,识别各策略的优势与弱点,并衡量它们之间的差异。 我们展示了如何将我们的杂乱度量用作预期性能的指标,并进一步细致分析了干扰物的一些单独影响。 最后,我们通过在真实世界的干扰数据上对一个VLA策略进行微调,考察训练数据增强策略,以确定它在多大程度上能够降低视觉杂乱带来的负面影响。
II. RELATED WORKS
第一部分:Distractors in visual scene understanding.
视觉场景理解中的干扰物。 在视觉领域的文献中,干扰物被定义为那些无助于完成任务目标的刺激,即它们不具有任何功能性作用,却会增加任务复杂度[16]。 干扰物具有多种形式,这取决于它们的显著性、外观以及与目标的相似性。 关于干扰物影响的相关文献十分丰富。 大量心理学研究考察了不同类型干扰物在视觉搜索中的影响[17], [18],而用于抑制其影响的注意机制也已被广泛研究[19], [20]。 在计算机视觉领域,人们已经提出了一些方法来缓解干扰物带来的问题,例如:目标检测中的类别混淆[21], [22]、由于相似性导致的目标与干扰物混淆[23],以及目标跟踪中的遮挡问题[24]。
第二部分:In robotics, distractors have also been shown to influence performance.
在机器人领域,干扰物同样已被证明会影响系统性能。 例如,基于近期一个基准[4]的自动驾驶研究表明,对干扰物进行扰动(这里称为无关体或非因果体)会显著削弱模型的预测性能,而为了对抗这种影响,应采用因果学习范式[25], [26]。 显著性较强的干扰物也被证明会对目标搜索产生负面影响[27]–[29],并导致定位与导航中的不准确[3]。 在机器人操作任务中,杂乱环境中的干扰物已被证明会影响机器人的识别能力,并给目标的抓取与操作带来挑战[30]–[36]。 在某些情况下,干扰物还会在特定情境下对动作生成产生叠加效应。 例如,在一项小规模研究中,[37]的作者表明,将干扰物替换为颜色不同但相似的物体,或替换为其他不同物体,会在多种操作任务中显著降低策略成功率,降幅最高可达50%。
第三部分:Robot simulators.
机器人模拟器。 得益于机器人仿真引擎的发展,在模拟世界中对策略开展大规模评估已经变得非常普遍[6], [13], [38], [39]。 这些模拟器使得人们能够评估更复杂的任务,例如食物准备[10]和家具装配[40],协作任务如检查与交接[41],以及那些需要有效空间推理的任务[5]。 为了尽量缩小仿真到现实之间的差距,SIMPLER[15]提供了混合式仿真场景,其中背景场景由真实数据构建,而物体和机器人手臂则通过后处理加入逼真的纹理。 通过比较最先进操作策略在真实场景及其对应仿真场景中的表现,作者表明,机器人在这两种环境中的性能具有很高的相关性。 因此,我们在SIMPLER环境中构建了我们的仿真评估。
第四部分:Evaluations protocols for robotic manipulation.
机器人操作的评估协议。大多数机器人操作基准主要关注在一些通常以未明确说明方式设计和布置的场景中测量成功率。在[8], [9]这类工作中,干扰物被引入环境中,但其排列方式、类型或影响并未被明确说明。有些工作关注干扰物排列方式的影响,以及这些干扰物是相似的[42]还是彼此不同的[43], [44]。在 shelving challenge[45] 中,研究者在取物箱中加入了干扰物(非目标物体);如果机器人抓取了干扰物而不是目标物体,则会受到惩罚。[46]的作者关注背景物体的排列方式,将它们布置为分散、规则排列(与边缘对齐)或堆叠的配置,但并未说明采用这种策略背后的动机。最近的一项工作[1]分析了环境因素、干扰物、目标特征、光照、相机位姿以及背景纹理对操作策略的影响,并得出结论:这些因素各自都会造成不同程度的负面影响。然而,这项研究并没有从干扰物的属性、数量或其在场景中的排列方式等角度对其进行刻画,因此它们对策略性能的影响无法被量化。此外,那些导致杂乱的因素是被孤立考虑的,因此它们的叠加效应仍然未知。这些因素并不是彼此独立的,因为例如,光照条件的影响会因物体外观不同而不同,而相机位姿的影响也会随着物体大小和排列方式的不同而变化。在这项工作中,我们从心理物理学视角提出了一种新的评估方法。我们采用一种统一的杂乱度量,它既能够刻画干扰物的特征和排列方式,也能够反映环境条件。我们系统地生成各种场景,以量化杂乱的影响,并识别操作策略的优势与脆弱点。
III. EVALUATION PROTOCOL
A. Problem formulation
机器人技能。我们研究的是机器人操作问题,其目标是在给定视觉观测和语言指令的情况下,学习生成动作。 机器人的动作采用三维空间中具有6自由度的夹爪位姿形式。在任务设置上,我们考虑机器人的核心技能,并采用[15]中的默认任务,即抓取(提起)物体、将一个物体移动到另一个物体旁边、堆叠物体,以及将(较小的)物体放到另一个(较大的)物体上。 在这些任务中,机器人需要在干扰物中准确检测目标,接近并抓取目标,且这一过程可能发生在受限环境中;随后还需要在避免碰撞的同时,将目标提起、移动并放置到目标位置。 其他任务,如推动、拉动、抛掷等,也可能会受到干扰物的负面影响。 我们推测,如果杂乱会影响所选取的这些核心能力,那么进一步地,它也会影响其他任务。
任务。如前所述,我们的目标是考察视觉杂乱对机器人操作任务的影响。 为了实现这一目标,需要考虑若干因素[47],包括物体数量(集合大小)、干扰物与目标物体的相似性、它们的排列方式(是整齐对齐还是随机放置),以及背景纹理、光照等环境因素。 每个因素之下还包含若干需要考虑的子因素。 例如,物体相似性可以体现在几何形状或颜色方面。 密集摆放会由于减少可供操作的空间而限制机器人的操作范围,也可能造成视觉遮挡,从而影响目标的可检测性。 此外,还存在一种应当被纳入考虑的交互效应。 例如,一个高物体若放在一个矮目标物体旁边,可能会显著限制目标的可达性;而如果它们之间间隔足够大,则不会出现这种情况。 对所有这些因素进行系统排列组合以生成一套完整场景,在实践中是不可行的,甚至可以说是不可能的。 因此,我们从心理物理学的视角来处理这个问题,并以整体性的方式看待杂乱。 我们使用杂乱程度作为由干扰物引起的场景复杂度度量,并固定其他环境因素。
B. Clutter measure
我们的目标是定义一种能够表征评估场景的度量。 这将使我们能够量化不同程度的场景杂乱对策略性能的影响。 不同于以往将场景杂乱因素分别单独处理的工作[1],我们采用一种统一的度量来考虑不同场景元素的叠加效应,并尽量减少评估中的因素偏置。
视觉杂乱的测量方法有很多种,而且通常与特定应用相关,例如地图绘制[48]、目标可见性[49]或物体排列[50]。我们采用一种心理物理学度量,即特征拥挤度量(feature congestion measure, FCM)[14]。它结合了场景在不同尺度下的颜色、对比度和方向信息的协方差,因此能够有效刻画干扰物的数量、空间分布、与目标的相似性,以及环境特征。 然而,这一度量是为二维图像设计的,无法解析操作复杂度,也不能充分考虑被遮挡的物体。 为了解决这一问题,我们提出了一种双视角方法,将机器人视角和俯视视角下的度量结合起来。 通过这种方式,我们既能够从策略视角测量视觉杂乱,也能够测量动作的操作复杂度。 我们将这一度量称为双视角特征拥挤(dual-view feature congestion, DvFC)。 如图2中的定性示例所示,向场景中引入更多样化的物体会提高杂乱水平,相应地,DvFC也会随之增加。 与真实场景相比,合成场景通常具有更高的DvFC值,因为其中物体摆放得更密集,而且背景纹理也更丰富。
C. Scenario Generation
我们从SIMPLER中的基础场景进行采样,从包含61个YCB物体[51]的干扰物集合中随机选取1–12个物体,并将它们随机放置在机器人的操作空间内。在间距方面,我们在物体之间设置最小δ δδ间隔,以避免物体发生堆叠或堆积。目标周围的空间也会受到约束,以尽量减小对抓取可供性的影响。最后,对于每一个生成的场景,我们都会计算其DvFC值。
Scenario sampling. 场景采样。为了确保场景中的动作是可执行的,我们首先丢弃所有这样的场景:其中目标物体在视觉上被严重遮挡(超过50%),或者不具备抓取可供性。 然后,我们根据剩余场景的DvFC分数将其划分到N NN个分箱中,并从这些分箱中进行均匀采样。
IV. EXPERIMENTS
我们追求两个关键目标:测量干扰物对策略性能的影响,以及观察不同策略在处理具有挑战性的场景时的差异。 更具体地说,我们试图回答以下问题:
1)干扰物会如何影响操作策略的成功率?
2)不同策略在杂乱场景中的表现是否相似?
3)场景杂乱度量是否是策略性能的一个良好估计指标?
4)最终形成的场景杂乱中,哪些方面对性能的影响最大?
A. Experimental Setup
Scenarios. 场景。我们采用SIMPLER默认类别中的以下六种技能,分别是 Move near、Stack cube、Pick coke,以及来自 Bridge 抓取与放置任务中的3项任务,即 Put spoon、Put eggplant 和 Put carrot(更多细节见[15])。 在每个场景中,我们系统地向环境中加入从61个YCB物体[51]中随机采样得到的干扰物。 那些会使指令产生歧义的干扰物会从干扰物候选集中被移除。 每个干扰物在桌面上的放置位置都是随机的,但会受到两个约束条件限制,以确保目标能够被抓取。 第一,我们设置干扰物与目标之间的距离阈值,以确保目标与附近物体之间保持分离。 第二,我们设置了一个条件,将目标在视觉上的遮挡程度(从机器人的默认视角来看)限制在最多50%。 总共,我们生成了6000个场景。
Models. 模型。我们遵循SIMPLER的设置,评估了五种最先进的视觉-语言-动作(VLA)模型,包括 Octo[52](在 Bridge 数据集[53]上训练)、OpenVLA[54](在 Fractal 数据集[55]上训练),以及 CogACT[56]、π0[57] 和 SpatialVLA[58],后面这三种模型是在 Bridge 和 Fractal 两个数据集[53], [55]上共同训练的。 需要注意的是,由于 Octo 和 OpenVLA 只在这两个数据集中的一个上进行了训练,因此我们仅在其对应的数据集任务集合上报告它们的结果,作为参考;而主要评估则使用另外三种策略。
Metrics. 评价指标我们遵循通用协议,并将成功率(SR)作为主要评价指标[15], [38], [39]。 SR 被定义为完成任务的比例,即使过程中发生了碰撞,也仍然计为完成。 我们还考虑严格成功率 hard SR(h-SR),它衡量的是在没有任何碰撞情况下成功完成任务的比例。 此外,我们还报告碰撞率(CR),其定义为发生碰撞的场景所占的百分比。 我们将与任何干扰物发生接触都视为一次碰撞。 在失败分析中,我们还报告抓取失败率(GFR),即机器人未能抓住目标的场景所占的百分比。 最后,我们还考虑效率率(ER),它根据机器人完成任务所需的步数来定义,并用该步数除以该场景允许的总步数进行归一化。 我们的初步观察是,杂乱环境可能会造成视觉混淆,使机器人在抓取目标之前先去接近错误的物体,因此完成任务所需的步数可能会增加。
B. Evaluation in Simulated World
干扰物会显著削弱操作策略的性能。我们首先通过对所有新生成场景中的表现取平均,来评估这些策略。 在这里,除了总体结果之外,我们还报告了目标存在视觉遮挡和不存在视觉遮挡两类场景下的成功率。 需要注意的是,Octo 和 OpenVLA 是在数据的一个子集上训练的,并且只在这些子集对应的任务上进行评估,因此它们仅作为参考包含在结果中。
如表 I 所示,通过加入干扰物来增加场景杂乱度,会显著降低所有策略的性能。 总体来看,π 0 π0π0和 CogACT 的成功程度更高,在SR上大约达到50%。 在存在视觉遮挡的场景中,成功率显著更低,这表明目标混淆和碰撞很可能是其中的重要原因。 另一个值得注意的现象是,不同策略的效率差异也非常明显。 虽然 SpatialVLA 和 CogACT 取得了最高的效率,但相比之下,π 0 π0π0的效率低了10%,尽管它的SR只比 CogACT 低1%。
较高的CR值表明,这些策略缺乏有效的避障机制。 一个例外是 SpatialVLA,与次优模型π 0 π0π0相比,它的碰撞率低了16%。 这一点同样体现在h-SR指标上:尽管它们在SR上的差距更大,但 SpatialVLA 与另外两种策略之间在h-SR上的差距要小得多。 这可能归因于 SpatialVLA 针对更好的环境空间理解进行了优化。 在GFR方面,π 0 π0π0明显更突出(相较于那些在所有场景上评估的模型而言),这表明该策略对抓取可供性的估计具有较强鲁棒性。
不同策略受到干扰物影响的方式并不相同。如图3中的分任务表现所示,所有模型在最简单的任务 Pick coke 上都取得了最佳表现(因为该任务只涉及提起目标物体),但它们在其他任务上的表现则有所不同。 SpatialVLA 和 CogACT 在 Move 任务上表现更好,而π 0 π0π0在 Stack 任务以及三个 Put 任务中的两个任务上表现更好。 总体而言,与另外两种策略相比,π 0 π0π0展现出了更为均衡的表现。
尽管这些策略在分任务表现上存在显著重叠,但它们并不一定会在相同的场景中取得成功。 根据图4,CogACT 与π 0 π0π0共享的成功场景仅约占45%,尽管两者的平均SR相近。 每一种策略也都会在一大部分另外两种策略失败的场景中取得成功。 这表明,尽管这些策略具有相似的架构并且在相似的数据上进行训练,它们的性能仍然具有互补性。 事实上,将这些策略结合起来时,它们在所有新场景上的SR大约可以达到67%。
除了在成功场景上的差异之外,这些策略在失败方式上也存在差异。 我们通过考虑以下3个操作阶段来说明这一点:未能到达目标(Fail to reach target)——表示夹爪是否到达了目标物体;未能抓取(Fail to grasp)——指无法抓住目标;抓取后失败(Fail after grasp)——指在完成抓取动作之后发生的失败。 需要注意的是,这些失败类型不会被重复计数。例如,未能到达目标不会再被计入未能抓取或抓取后失败之中。
失败情况的汇总如图5所示。 这里展示了每种策略在每一类错误上的失败百分比。 再次可以看到,不同策略之间存在明显差异。 例如,CogACT 通常在到达正确目标物体方面更成功,但在抓取环节上相对落后;而π 0 π0π0通常更擅长抓住目标,但在完成整个任务方面表现较差。
根据图5中的定性示例,这些失败类型的成因各不相同。 例如,在“未能到达目标”的情形中,除了碰撞之外,由于视觉混淆而抓取错误物体(干扰物)的现象非常常见。 例如,在左下和中间的场景中,机器人抓起了螺丝刀而不是勺子;或者在右上样本中,机器人抓起了午餐肉罐头 Spam(其形状近似长方体且为蓝色),而不是 7UP(其形状为圆柱形且为绿色)。 在另外一些场景中(上中),机器人只是从目标(一个7UP罐)上方经过,却没有去接近它;或者在没有明显原因的情况下,反复抓取并释放百事可乐罐(左上),却没有将其提起。
为了进一步研究这些策略之间的差异,我们对“未能到达目标”这一类失败进行了细分,并将结果汇总在图6中。 这里,我们考虑的是在失败发生之前,末端执行器与目标之间达到过的最近距离。 如图所示,CogACT 通常在接近目标方面更成功,因为其对应的数据点更多地集中在靠近目标位置的区域。 然而,π 0 π0π0的失败点分布更为分散,并且延伸到了距离目标0.5m以外的位置。 这表明,该策略更容易受到目标混淆和物体误识别的影响。
杂乱度量是预测策略预期性能的一个强有力指标。我们将场景的DvFC值划分为8个区间,并计算各策略在每个区间中的成功率。 如图7a所示,随着DvFC值的增加,性能总体上呈下降趋势,不过不同策略的变化速率并不相同。 CogACT 和π 0 π0π0的性能在开始阶段先下降,随后在中等DvFC值范围内以小幅波动的形式趋于稳定,最后在高DvFC值处进一步下降。 另一方面,SpatialVLA 的性能在一开始便快速下降,并在中途达到最低SR。 这意味着,与其他策略相比,SpatialVLA 受到杂乱的影响更为显著。 总体而言,π 0 π0π0在较高杂乱水平下表现出更强的稳定性。
这种差异在错误率上也同样明显。 如图7a所示,尽管π 0 π0π0和 CogACT 的碰撞率较高,SpatialVLA 却表现出更稳定的表现,这与它更优的平均CR是一致的。 然而,抓取失败率(GFR)的变化幅度要大得多。 总体来看,π 0 π0π0表现更好,因为它的GFR上升较为缓慢,在不同杂乱水平下仅增加了10%;而其他策略的退化幅度则超过20%。 SpatialVLA 在最后阶段GFR的下降,可能是由于该策略在高度杂乱场景中的整体成功率本来就较低所导致的。
干扰物和杂乱的不同方面会带来不同的负面影响。尽管所有策略都表现出性能下降的趋势(见图7a),但在较高DvFC值处仍然存在一些不规则现象。 这是因为,在一个杂乱场景中同时起作用的因素有很多,包括拥挤程度、干扰物属性(如形状、颜色、大小)、集合大小、视觉遮挡等。 为了考察这些因素的影响,我们进一步按照其中两个因素对场景进行分组,即集合大小(也就是干扰物的数量)和视觉遮挡。 根据图7b可以看出,向场景中加入干扰物会对整体性能产生负面影响,不过在干扰物数量超过5个之后,所有策略的性能都趋于稳定。 在目标视觉遮挡的情况下,如图7c所示,我们观察到一种非常不同的趋势。 所有策略在初始阶段的性能下降都非常剧烈,随后在大约20%的遮挡水平处趋于稳定。 不过,下降的速率各不相同。 例如,与 CogACT 相比,π 0 π0π0在开始阶段受到的影响更大,但它最终稳定在一个更高的SR值上,这表明该模型对视觉遮挡更为鲁棒。 在主要比较的这些策略中,SpatialVLA 是最脆弱的,在最高遮挡水平下其SR下降到了0%。
C. 真实世界中的评估
我们通过在真实世界中复现实验设置来验证我们的研究发现。 然而,由于生成大量场景所需时间过于高昂,我们转而采用更稀疏的干扰物采样方式。 更具体地说,我们考虑了6种变化情况,分别包含0、1、2、4、8和16个干扰物。 由于我们机器人的操作空间更大,因此我们选择了更大的干扰物数量。 我们与仿真实验一样,考虑四种核心技能,即 pick、move、stack 和 put,并为每一种设置创建9种变化形式,总计216个场景。
我们选择π 0 π0π0,因为它在所有技能上展现出了更为均衡的表现。 我们使用为每一种技能收集的42个样本对该策略进行了微调。 在这些数据中,我们只放置了目标物体,而没有加入任何干扰物。 为简洁起见,我们只报告该策略在所有任务上的总体成功率。 所有实验均使用 UR5e 机械臂完成。 与仿真实验类似,我们根据场景的DvFC度量将其划分为8个区间。
如图8所示,随着杂乱水平的提高,我们再次观察到性能呈下降趋势。 与仿真实验中观察到的情况一致(见图7),我们也可以看到一些小幅波动,例如从第3个区间到第4个区间,这可能是由于模型不确定性或造成杂乱的个别因素所致。 此外,随着任务复杂度的增加,杂乱带来的影响会进一步加剧。 图中展示了失败案例的定性样本。 与合成实验类似,目标混淆现象依然十分普遍,甚至在场景中只增加一个干扰物时也会发生。
π 0 π0π0在真实世界中的失败情况(见图9)也表现出与合成结果相似的趋势。 当杂乱水平达到3时,我们观察到CR和GFR都显著上升。 总体而言,CR上升得更快,而GFR虽然在初期有所上升,但随后趋于稳定,这印证了我们在仿真实验中的发现。
V. DOES DATA HELP WITH CLUTTER SCENES?
到目前为止,我们已经表明,由干扰物引起的杂乱会显著影响策略的性能。 针对这一问题,可以有多种应对方式,从通过架构改动进行显式场景推理,到进行数据增强,不一而足。 由于我们的研究重点是VLA,因此我们采用后者的方法,并考察数据在真实世界场景中的有效性。
我们遵循自己的评估协议,通过创建包含不同数量干扰物的场景来生成数据。 这些干扰物及其排列方式都经过随机化处理,以使其不同于我们之前使用过的测试场景。 对于四种技能中的每一种,除了基础样本之外,我们还收集了45个包含干扰物的场景(如前所述,每个干扰物级别对应9种排列,共5个干扰物级别)。 利用这些新数据,我们对基础π 0 π0π0模型进行了微调,并在我们的测试场景上对该策略进行了评估。
如图10所示,在微调数据中加入干扰物样本,会提高该策略对杂乱的鲁棒性。 然而,这种提升并没有在所有指标上表现出一致性。 根据表 II,尽管成功率提高了18%,但其他指标的改善幅度较小,例如GFR仅改善了6%。 可以预见的是,更多的数据将有助于进一步提升性能。 然而,仅仅把扩大数据规模作为唯一解决方案是值得商榷的,因为即使在我们这种干扰物类型固定、环境受控的条件下,收益也并不十分显著。
VI. CONCLUSION
在这项工作中,我们从心理物理学的视角研究了视觉杂乱对机器人操作策略的影响。 我们在仿真和真实世界实验中的发现都表明,杂乱会对性能产生显著的负面影响。 我们的分析表明,仅仅对策略在所有场景中的成功情况取平均,并不足以有效揭示这些策略的优点和缺点。 尽管这些策略的平均表现相近,但它们具有互补的优势,受环境因素影响的方式不同,并且各自容易受到不同类型失败的影响。 我们表明,视觉杂乱度量是预测策略性能的有效指标。 最后,我们考察了数据增强在提升对杂乱鲁棒性方面所起的作用。 尽管观察到了性能提升,但即使在我们这种变化受限的受控环境中,各项指标上的增益也并不显著。 我们的研究表明,除了扩大数据规模之外,还需要在不同场景下对策略进行更好的分析与评估,并研究其他处理杂乱问题的替代方法。