Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation<br>稀疏视频生成推动现实世界超视距视觉语言导航<br>[摘要](abstracts/2602.05827.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

为何视觉语言导航必须依赖于详尽冗长的语言指令?尽管这些细节有助于决策制定,但它们从根本上违背了现实世界导航的目标。理想情况下,智能体应具备自主性,仅凭简单高层的意图引导在未知环境中导航。实现这一愿景带来了严峻挑战:超视距导航,即智能体必须在缺乏密集逐步指导的情况下定位远处不可见的目标。现有基于大语言模型的方法虽擅长遵循密集指令,但由于依赖短视距监督,常表现出短视行为。然而,单纯扩展监督视距会破坏大语言模型训练的稳定性。本研究发现,视频生成模型天生受益于长视距监督以对齐语言指令,使其特别适用于超视距导航任务。基于这一洞见,我们首次将视频生成模型引入该领域。然而,生成长达数十秒视频的过高延迟使其难以实际部署。为弥合这一差距,我们提出SparseVideoNav,通过生成跨越20秒视距的稀疏未来轨迹,实现亚秒级轨迹推断,相比未优化版本获得惊人的27倍加速。大量现实世界零样本实验表明,SparseVideoNav在超视距导航任务上的成功率达到最先进大语言模型基线的2.5倍,并首次在极具挑战性的夜间场景中实现了此类能力。

← Back