Abstract not available.
近期基于视觉语言模型(VLMs)的具身导航方法在通用视觉语言导航(VLN)中展现出强大的泛化能力。然而,由于空间感知不足,在复杂环境中实现可靠的路径规划仍具挑战。本研究提出SPAN-Nav,一种端到端的基础模型,旨在通过RGB视频流为具身导航注入通用的三维空间感知。SPAN-Nav通过在大规模室内外环境上进行占据预测任务,提取跨场景的空间先验知识。为降低计算负担,我们引入了空间先验的紧凑表示,发现单个令牌足以封装导航任务所需的关键粗粒度线索。此外,受思维链(CoT)机制启发,SPAN-Nav利用该单一空间令牌,通过端到端框架将空间线索显式注入动作推理过程。借助多任务协同训练,SPAN-Nav从广义空间先验中捕获任务自适应线索,即使对缺乏显式空间监督的任务,也能实现鲁棒的空间感知泛化。为支持全面的空间学习,我们构建了一个包含420万个占据标注的大规模数据集,涵盖多类型导航任务的室内外场景。SPAN-Nav在跨越多样化场景和导航任务的三个基准测试中均达到最先进性能。最后,真实世界实验验证了该方法在复杂物理场景中的强泛化能力和实际可靠性。