When would Vision-Proprioception Policies Fail in Robotic Manipulation?<br>视觉-本体感知策略在机器人操作中何时会失效?<br>[摘要](abstracts/2602.12032.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本体感知信息通过提供实时机器人状态,对于精确的伺服控制至关重要。其与视觉的结合被高度期待以提升复杂任务中操作策略的性能。然而,近期研究在视觉-本体感知策略的泛化能力上报告了不一致的观察结果。在本工作中,我们通过时间控制的实验对此进行了探究。我们发现,在机器人运动转换的任务子阶段(这些阶段需要目标定位),视觉-本体感知策略的视觉模态作用有限。进一步分析揭示,在训练过程中,策略自然倾向于使用能更快降低损失的简洁本体感知信号,从而主导优化过程,并在运动转换阶段抑制视觉模态的学习。为缓解此问题,我们提出了基于阶段引导的梯度调整(GAP)算法,该算法自适应地调节本体感知的优化,实现视觉-本体感知策略内部的动态协作。具体而言,我们利用本体感知捕获机器人状态,并估计轨迹中每个时间步属于运动转换阶段的概率。在策略学习过程中,我们应用细粒度调整,根据估计的概率降低本体感知梯度的大小,从而获得鲁棒且可泛化的视觉-本体感知策略。全面的实验表明,GAP算法在模拟和真实环境中均适用,覆盖单臂和双臂设置,并与传统模型及视觉-语言-动作模型兼容。我们相信这项工作能为机器人操作中视觉-本体感知策略的发展提供有价值的见解。

← Back