Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments<br>逐步奖励:连续环境中视觉语言导航的步骤感知对比对齐<br>[摘要](abstracts/2603.09740.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

连续环境中的视觉语言导航(VLN-CE)要求智能体从长程人类交互中学习复杂推理。尽管多模态大语言模型(MLLMs)推动了近期进展,但当前训练范式难以平衡泛化能力、错误恢复和训练稳定性。具体而言:(i)基于监督微调(SFT)的策略易受累积误差影响,难以从分布外状态中恢复;(ii)强化微调(RFT)方法(如GRPO)受限于稀疏结果奖励,其二元反馈无法为单一步骤分配信用,导致失败主导批次中的梯度信号崩溃。为解决这些挑战,我们提出了步骤感知对比对齐(SACA)框架,旨在从非完美轨迹中提取密集监督。其核心是感知基础的步骤感知审核器,可逐步评估进展,将失败轨迹分解为有效前缀和精确分歧点。利用这些信号,场景条件分组构建机制动态将批次路由至专用重采样和优化策略。在VLN-CE基准上的大量实验表明,SACA实现了最先进的性能。

← Back