Abstract not available.
视觉-语言导航(VLN)旨在使具身智能体能够遵循自然语言指令,在未见过的3D环境中导航至目标位置。我们认为,将视觉语言模型(VLM)适配至VLN需要赋予其两种互补能力以获取动态空间感知能力,即反向动作推理(为何)与前向状态转移预测(如何)。基于这一洞察,我们提出SpaAct——一种简单而有效的训练框架,可激活VLM中的动态空间感知能力。具体而言,SpaAct引入两类空间激活任务:动作回溯(Action Retrospection)要求模型从视觉状态转移中推断已执行的动作序列,未来帧选择(Future Frame Selection)则迫使模型基于历史观测与动作预测后续视觉状态转移。这两个目标通过对反向动作推理与前向状态转移预测提供轻量级监督,以VLM友好的方式促使模型建立动态空间感知。为稳定适配过程,我们设计TriPA(三因子渐进式自适应课程学习方法),按由易到难的顺序组织训练样本,使模型从基础运动逐步过渡到长程推理,渐进掌握导航技能。在标准VLN-CE基准上的实验表明,SpaAct能持续提升基于VLM的导航性能,并取得当前最佳结果。我们将开源代码与模型以支持后续研究。