Abstract not available.
在视觉语言导航(VLN)中实现人类水平的表现,要求具身智能体能够同时理解多模态指令与视觉空间上下文,并对长序列动作进行推理。近期研究,如NavCoT与NavGPT-2,展示了思维链(CoT)推理在提升可解释性与长程规划能力方面的潜力。此外,OctoNav-R1和CoT-VLA等多模态扩展进一步验证了CoT作为实现类人导航推理的有效路径。然而,现有方法存在明显缺陷:纯文本CoT缺乏空间基础,易因稀疏标注的推理步骤而过拟合;而多模态CoT通过生成想象的视觉观测导致严重的令牌膨胀,使得实时导航难以实现。本文提出FantasyVLN,一个统一的隐式推理框架,在保留CoT推理优势的同时避免了显式的令牌开销。具体而言,在CoT推理训练中,我们使用预训练的视觉自回归模型(VAR)将想象的视觉令牌编码至紧凑的潜在空间,并通过统一的多CoT策略,使模型能够从文本、视觉及多模态CoT模式中联合学习。在推理阶段,我们的模型直接执行从指令到动作的映射,同时仍受益于推理感知的表征。在LH-VLN数据集上的大量实验表明,该方法实现了兼具推理感知与实时性的导航,不仅提升了成功率与效率,而且相比显式CoT方法,推理延迟降低了一个数量级。