Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments<br>逐步奖励：连续环境中视觉语言导航的步骤感知对比对齐<br>[摘要](abstracts/2603.09740.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

连续环境中的视觉语言导航（VLN-CE）要求智能体从长程人类交互中学习复杂推理。尽管多模态大语言模型（MLLMs）推动了近期进展，但当前训练范式难以平衡泛化能力、错误恢复和训练稳定性。具体而言：（i）基于监督微调（SFT）的策略易受累积误差影响，难以从分布外状态中恢复；（ii）强化微调（RFT）方法（如GRPO）受限于稀疏结果奖励，其二元反馈无法为单一步骤分配信用，导致失败主导批次中的梯度信号崩溃。为解决这些挑战，我们提出了步骤感知对比对齐（SACA）框架，旨在从非完美轨迹中提取密集监督。其核心是感知基础的步骤感知审核器，可逐步评估进展，将失败轨迹分解为有效前缀和精确分歧点。利用这些信号，场景条件分组构建机制动态将批次路由至专用重采样和优化策略。在VLN-CE基准上的大量实验表明，SACA实现了最先进的性能。

← Back