FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation<br>FloorPlan-VLN:一种基于平面图引导的视觉语言导航新范式<br>[摘要](abstracts/2603.17437.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的视觉语言导航任务要求智能体遵循冗长的指令,忽略了部分潜在有用的全局空间先验,限制了其推理空间结构的能力。尽管人类可读的空间示意图(如平面图)在现实建筑中普遍存在,但当前智能体缺乏理解与利用它们的能力。为填补这一空白,我们提出了**FloorPlan-VLN**,一种利用结构化语义平面图作为全局空间先验的新范式,使智能体仅需简洁指令即可导航。我们首先构建了FloorPlan-VLN数据集,包含72个场景中超过1万条导航轨迹,将100多张语义标注的平面图与基于Matterport3D的导航路径及省略逐步指引的简洁指令配对。随后,我们提出了一种简单而有效的方法**FP-Nav**,该方法采用双视角、时空对齐的视频序列及辅助推理任务,以对齐观测数据、平面图和指令。在这一新基准下评估时,我们的方法显著优于经调整的先进视觉语言导航基线,导航成功率相对提升超过60%。此外,全面的噪声建模和实际部署验证了FP-Nav对执行漂移和平面图失真的可行性与鲁棒性。这些结果证实了平面图引导导航的有效性,并凸显FloorPlan-VLN作为迈向更具空间智能导航的重要一步。

← Back