When would Vision-Proprioception Policies Fail in Robotic Manipulation?<br>视觉-本体感知策略在机器人操作中何时会失效？<br>[摘要](abstracts/2602.12032.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本体感知信息通过提供实时机器人状态，对于精确的伺服控制至关重要。其与视觉的结合被高度期待以提升复杂任务中操作策略的性能。然而，近期研究在视觉-本体感知策略的泛化能力上报告了不一致的观察结果。在本工作中，我们通过时间控制的实验对此进行了探究。我们发现，在机器人运动转换的任务子阶段（这些阶段需要目标定位），视觉-本体感知策略的视觉模态作用有限。进一步分析揭示，在训练过程中，策略自然倾向于使用能更快降低损失的简洁本体感知信号，从而主导优化过程，并在运动转换阶段抑制视觉模态的学习。为缓解此问题，我们提出了基于阶段引导的梯度调整（GAP）算法，该算法自适应地调节本体感知的优化，实现视觉-本体感知策略内部的动态协作。具体而言，我们利用本体感知捕获机器人状态，并估计轨迹中每个时间步属于运动转换阶段的概率。在策略学习过程中，我们应用细粒度调整，根据估计的概率降低本体感知梯度的大小，从而获得鲁棒且可泛化的视觉-本体感知策略。全面的实验表明，GAP算法在模拟和真实环境中均适用，覆盖单臂和双臂设置，并与传统模型及视觉-语言-动作模型兼容。我们相信这项工作能为机器人操作中视觉-本体感知策略的发展提供有价值的见解。

← Back