What Limits Vision-and-Language Navigation ?<br>视觉与语言导航的瓶颈何在？<br>[摘要](abstracts/2605.13328.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉与语言导航是具身智能的基石。然而，当前智能体从仿真环境向现实世界部署时，常因感知不稳定性（如光照变化和运动模糊）以及指令模糊不清而出现显著性能下降。尽管现有方法试图通过扩大模型规模和训练数据来解决这一问题，我们认为瓶颈在于缺乏稳健的空间定位能力和跨域先验知识。本文提出StereoNav，一种旨在增强现实世界导航一致性的鲁棒视觉-语言-动作框架。为解决合成训练与物理执行之间的固有鸿沟，我们引入目标位置先验作为持久桥梁。这些先验在不同域间保持不变的稳定视觉引导，即使在指令模糊时也能有效定位智能体。此外，为缓解运动模糊和光照变化等视觉干扰，StereoNav利用立体视觉构建语义与几何的统一表征，通过增强深度感知实现精准的动作预测。在R2R-CE和RxR-CE上的大量实验表明，StereoNav在自中心RGB性能上达到最优，SR和SPL分数分别为81.1%和68.3%，以及67.5%和52.0%，同时使用的参数和训练数据远少于先前基于规模扩展的方法。更重要的是，真实机器人部署验证了StereoNav在复杂非结构化环境中显著提升了导航可靠性。项目页面：https://yunheng-wang.github.io/stereonav-public.github.io。

← Back