Abstract not available.
利用大型语言模型(LLM)的零样本视觉语言导航(VLN)代理在泛化方面表现出色,但存在空间感知不足的问题。针对复杂连续环境,我们将关键感知瓶颈归纳为三类空间挑战:门交互、多房间导航和模糊指令执行,现有方法在这些方面持续面临高失败率。我们提出了Spatial-VLN,一种感知引导的探索框架,旨在克服这些挑战。该框架包含两个核心模块:空间感知增强(SPE)模块通过全景过滤结合专门的门与区域专家,生成空间连贯、跨视图一致的感知表征;在此基础上,探索式多专家推理(EMR)模块利用并行LLM专家处理路径点级语义和区域级空间转换。当专家预测出现分歧时,查询-探索机制被激活,引导代理主动探测关键区域以解决感知模糊性。在VLN-CE上的实验表明,Spatial-VLN仅使用低成本LLM即实现了最先进的性能。此外,为验证实际应用性,我们引入了一种基于价值的路径点采样策略,有效弥合了仿真到现实的差距。大量真实环境评估证实,该框架在复杂环境中具有卓越的泛化能力和鲁棒性。代码与演示视频发布于https://yueluhhxx.github.io/Spatial-VLN-web/。