What Limits Vision-and-Language Navigation ?<br>视觉与语言导航的瓶颈何在?<br>[摘要](abstracts/2605.13328.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉与语言导航是具身智能的基石。然而,当前智能体从仿真环境向现实世界部署时,常因感知不稳定性(如光照变化和运动模糊)以及指令模糊不清而出现显著性能下降。尽管现有方法试图通过扩大模型规模和训练数据来解决这一问题,我们认为瓶颈在于缺乏稳健的空间定位能力和跨域先验知识。本文提出StereoNav,一种旨在增强现实世界导航一致性的鲁棒视觉-语言-动作框架。为解决合成训练与物理执行之间的固有鸿沟,我们引入目标位置先验作为持久桥梁。这些先验在不同域间保持不变的稳定视觉引导,即使在指令模糊时也能有效定位智能体。此外,为缓解运动模糊和光照变化等视觉干扰,StereoNav利用立体视觉构建语义与几何的统一表征,通过增强深度感知实现精准的动作预测。在R2R-CE和RxR-CE上的大量实验表明,StereoNav在自中心RGB性能上达到最优,SR和SPL分数分别为81.1%和68.3%,以及67.5%和52.0%,同时使用的参数和训练数据远少于先前基于规模扩展的方法。更重要的是,真实机器人部署验证了StereoNav在复杂非结构化环境中显著提升了导航可靠性。项目页面:https://yunheng-wang.github.io/stereonav-public.github.io。

← Back