Trajectory-Diversity-Driven Robust Vision-and-Language Navigation<br>轨迹多样性驱动的鲁棒视觉语言导航<br>[摘要](abstracts/2603.15370.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)要求智能体根据自然语言指令在逼真环境中导航。现有方法主要依赖模仿学习,存在泛化能力有限和对执行扰动鲁棒性差的问题。本文提出NavGRPO,一种通过组相对策略优化学习目标导向导航策略的强化学习框架。该方法通过探索多样化轨迹并基于组内性能比较进行优化,使智能体能够超越专家路径识别有效策略,无需额外价值网络。基于ScaleVLN构建的NavGRPO在R2R和REVERIE基准测试中实现了卓越的鲁棒性,在未见环境中分别获得+3.0%和+1.71%的SPL提升。在极端早期阶段扰动下,相比基线方法取得了+14.89%的SPL增益,证实了目标导向强化学习训练能构建显著更鲁棒的导航策略。代码与模型将公开。

← Back