Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation<br>稀疏视频生成推动现实世界超视距视觉语言导航<br>[摘要](abstracts/2602.05827.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

为何视觉语言导航必须依赖于详尽冗长的语言指令？尽管这些细节有助于决策制定，但它们从根本上违背了现实世界导航的目标。理想情况下，智能体应具备自主性，仅凭简单高层的意图引导在未知环境中导航。实现这一愿景带来了严峻挑战：超视距导航，即智能体必须在缺乏密集逐步指导的情况下定位远处不可见的目标。现有基于大语言模型的方法虽擅长遵循密集指令，但由于依赖短视距监督，常表现出短视行为。然而，单纯扩展监督视距会破坏大语言模型训练的稳定性。本研究发现，视频生成模型天生受益于长视距监督以对齐语言指令，使其特别适用于超视距导航任务。基于这一洞见，我们首次将视频生成模型引入该领域。然而，生成长达数十秒视频的过高延迟使其难以实际部署。为弥合这一差距，我们提出SparseVideoNav，通过生成跨越20秒视距的稀疏未来轨迹，实现亚秒级轨迹推断，相比未优化版本获得惊人的27倍加速。大量现实世界零样本实验表明，SparseVideoNav在超视距导航任务上的成功率达到最先进大语言模型基线的2.5倍，并首次在极具挑战性的夜间场景中实现了此类能力。

← Back