WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models<br>WorldMAP:利用生成式世界模型自举视觉语言导航轨迹预测<br>[摘要](abstracts/2604.07957.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)与生成式世界模型正为具身导航开辟新的机遇。VLMs日益被用作直接规划器或轨迹预测器,而世界模型则通过想象未来视图支持前瞻推理。然而,从单一自我中心观察中预测可靠轨迹仍具挑战。当前VLMs常生成不稳定轨迹,而世界模型虽能合成合理的未来场景,却无法直接提供导航学习所需的具身信号。这引出一个核心问题:如何将生成的未来转化为具身轨迹预测的监督信息?我们提出WorldMAP,一种师生框架,将世界模型生成的未来转化为持久的语义-空间结构及规划衍生的监督信号。其世界模型驱动的教师从生成视频中构建语义-空间记忆,定位任务相关目标与障碍,并通过显式规划生成轨迹伪标签。随后,一个配备多假设轨迹头的轻量级学生模型被训练直接从视觉语言输入中预测导航轨迹。在Target-Bench基准测试中,WorldMAP在对比方法中取得了最优的平均位移误差(ADE)与最终位移误差(FDE),相较于最佳基线分别降低18.0%与42.1%,同时将一款小型开源VLM的动态时间规整(DTW)性能提升至可与专有模型竞争的水平。更广泛而言,结果表明在具身导航中,世界模型的价值或许不在于提供可直接用于行动的想象证据,而在于为导航学习合成结构化监督信号。

← Back