HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation<br>HaltNav：基于轻量级拓扑先验的响应式视觉停顿，实现鲁棒的视觉语言导航<br>[摘要](abstracts/2603.12696.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）正从僵化的逐步指令跟随转向开放词汇、目标导向的自主导航。要在无需详尽路径提示的情况下实现这一转变，智能体需利用结构先验。先前研究通常依赖计算量大的2D/3D度量地图，而本文则采用一种轻量级、基于文本的osmAG（OpenStreetMap区域图）——一种易于获取和维护的平面图级拓扑表示。然而，在现实部署中，仅依赖先验地图进行全局规划具有脆弱性，因为局部连通性可能发生变化（如关闭的门或拥挤通道），导致执行时失败。为填补这一空白，我们提出了一种分层导航框架HaltNav，它将osmAG的鲁棒全局规划与VLN的局部探索及指令接地能力相结合。我们的方法采用基于MLLM的“大脑”模块，具备高层次任务接地和障碍感知能力。在osmAG条件下，该大脑将全局路径转换为一系列局部化执行片段，为VLN执行器提供基于先验、以目标为中心的子指令。同时，它通过我们称为“响应式视觉停顿”（RVH）的机制检测局部异常，该机制会中断局部控制循环，通过使相应拓扑失效来更新osmAG，并触发重新规划以协调可行的绕行路径。为高效训练这种停顿能力，我们引入了一种数据合成流程，利用生成模型在原本可导航的场景中注入逼真障碍物，从而大幅丰富困难负样本。大量实验表明，我们的分层框架在无需冗长语言指令的情况下优于多种基线方法，并显著提升了环境变化下长视程视觉语言导航的鲁棒性。

← Back