MapDream: Task-Driven Map Learning for Vision-Language Navigation<br>MapDream：面向视觉语言导航的任务驱动地图学习<br>[摘要](abstracts/2602.00222.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航要求智能体在部分可观测的三维环境中遵循自然语言指令，这促使需要构建能够聚合超越局部感知的空间上下文的地图表示。然而，现有方法大多依赖于独立于导航策略构建的手工地图。我们认为，地图应是直接由导航目标塑造的学习表示，而非详尽的重建。基于这一见解，我们提出了MapDream，一个地图闭环框架，将地图构建形式化为自回归的鸟瞰图图像合成。该框架联合学习地图生成与动作预测，将环境上下文提炼为紧凑的三通道鸟瞰图地图，仅保留对导航至关重要的可操作信息。通过监督预训练引导出可靠的映射到控制接口，而自回归设计则支持通过强化微调实现端到端的联合优化。在R2R-CE和RxR-CE数据集上的实验达到了单目视觉导航的先进水平，验证了任务驱动的生成式地图学习的有效性。

← Back