Abstract not available.
视觉语言导航(VLN)正从僵化的逐步指令跟随转向开放词汇、目标导向的自主导航。要在无需详尽路径提示的情况下实现这一转变,智能体需利用结构先验。先前研究通常依赖计算量大的2D/3D度量地图,而本文则采用一种轻量级、基于文本的osmAG(OpenStreetMap区域图)——一种易于获取和维护的平面图级拓扑表示。然而,在现实部署中,仅依赖先验地图进行全局规划具有脆弱性,因为局部连通性可能发生变化(如关闭的门或拥挤通道),导致执行时失败。为填补这一空白,我们提出了一种分层导航框架HaltNav,它将osmAG的鲁棒全局规划与VLN的局部探索及指令接地能力相结合。我们的方法采用基于MLLM的“大脑”模块,具备高层次任务接地和障碍感知能力。在osmAG条件下,该大脑将全局路径转换为一系列局部化执行片段,为VLN执行器提供基于先验、以目标为中心的子指令。同时,它通过我们称为“响应式视觉停顿”(RVH)的机制检测局部异常,该机制会中断局部控制循环,通过使相应拓扑失效来更新osmAG,并触发重新规划以协调可行的绕行路径。为高效训练这种停顿能力,我们引入了一种数据合成流程,利用生成模型在原本可导航的场景中注入逼真障碍物,从而大幅丰富困难负样本。大量实验表明,我们的分层框架在无需冗长语言指令的情况下优于多种基线方法,并显著提升了环境变化下长视程视觉语言导航的鲁棒性。