Abstract not available.
长时程机器人操作对强化学习(RL)而言仍具挑战性,因为稀疏奖励在信用分配上提供的指导有限。实际策略改进因此依赖于更丰富的中间监督,如密集进度奖励,但这些奖励获取成本高昂,且不适用于回溯、恢复等非单调行为。为解决此问题,我们提出优势奖励建模(ARM)框架,该框架从难以量化的绝对进度评估转向估计相对优势。我们引入一种低成本的三态标注策略——前进、后退与停滞——在确保高标注者间一致性的同时降低人工认知负荷。通过基于这些直观信号进行训练,ARM能够为完整演示和碎片化的DAgger风格数据实现自动化进度标注。将ARM整合至离线RL流程中,可实现自适应动作-奖励重加权,有效过滤次优样本。我们的方法在具有挑战性的长时程毛巾折叠任务上达到了99.4%的成功率,相较于当前视觉语言动作基线,在策略训练期间近乎零人工干预的情况下,展现出更高的稳定性和数据效率。