FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation<br>FloorPlan-VLN：一种基于平面图引导的视觉语言导航新范式<br>[摘要](abstracts/2603.17437.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的视觉语言导航任务要求智能体遵循冗长的指令，忽略了部分潜在有用的全局空间先验，限制了其推理空间结构的能力。尽管人类可读的空间示意图（如平面图）在现实建筑中普遍存在，但当前智能体缺乏理解与利用它们的能力。为填补这一空白，我们提出了**FloorPlan-VLN**，一种利用结构化语义平面图作为全局空间先验的新范式，使智能体仅需简洁指令即可导航。我们首先构建了FloorPlan-VLN数据集，包含72个场景中超过1万条导航轨迹，将100多张语义标注的平面图与基于Matterport3D的导航路径及省略逐步指引的简洁指令配对。随后，我们提出了一种简单而有效的方法**FP-Nav**，该方法采用双视角、时空对齐的视频序列及辅助推理任务，以对齐观测数据、平面图和指令。在这一新基准下评估时，我们的方法显著优于经调整的先进视觉语言导航基线，导航成功率相对提升超过60%。此外，全面的噪声建模和实际部署验证了FP-Nav对执行漂移和平面图失真的可行性与鲁棒性。这些结果证实了平面图引导导航的有效性，并凸显FloorPlan-VLN作为迈向更具空间智能导航的重要一步。

← Back