NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps<br>NavOne：面向俯视地图的视觉-语言导航的一步全局规划方法<br>[摘要](abstracts/2605.06317.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的视觉-语言导航（VLN）方法通常采用以自我为中心、逐步执行的范式，这种范式难以避免误差累积且效率受限。虽然近期有研究尝试利用预建的环境地图，但它们往往依赖于增量更新的记忆图或对离散路径候选进行评分，这限制了连续空间推理能力并形成了离散化瓶颈。本文提出俯视VLN（TD-VLN），将导航重新定义为在预建俯视地图上的一步全局路径规划问题，并以此为基础构建了全新的R2R-TopDown数据集。为解决该问题，我们引入统一框架NavOne，该框架通过单次端到端前向传播直接预测多模态地图上的密集路径概率。NavOne的核心组件包括用于联合多模态地图表征的俯视地图融合器（Top-Down Map Fuser），以及用于实现空间感知深度混合的注意力残差扩展模块（Attention Residuals）。在R2R-TopDown数据集上的大量实验表明，NavOne在基于地图的VLN方法中达到了最优性能，其规划阶段速度相比现有地图基线方法提升8倍，相比以自我为中心的方法提升80倍，从而实现了高效全局导航。

← Back