ARM: Advantage Reward Modeling for Long-Horizon Manipulation<br>ARM：面向长时程操作的优势奖励建模<br>[摘要](abstracts/2604.03037.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

长时程机器人操作对强化学习（RL）而言仍具挑战性，因为稀疏奖励在信用分配上提供的指导有限。实际策略改进因此依赖于更丰富的中间监督，如密集进度奖励，但这些奖励获取成本高昂，且不适用于回溯、恢复等非单调行为。为解决此问题，我们提出优势奖励建模（ARM）框架，该框架从难以量化的绝对进度评估转向估计相对优势。我们引入一种低成本的三态标注策略——前进、后退与停滞——在确保高标注者间一致性的同时降低人工认知负荷。通过基于这些直观信号进行训练，ARM能够为完整演示和碎片化的DAgger风格数据实现自动化进度标注。将ARM整合至离线RL流程中，可实现自适应动作-奖励重加权，有效过滤次优样本。我们的方法在具有挑战性的长时程毛巾折叠任务上达到了99.4%的成功率，相较于当前视觉语言动作基线，在策略训练期间近乎零人工干预的情况下，展现出更高的稳定性和数据效率。

← Back