FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation<br>FantasyVLN：面向视觉语言导航的统一多模态思维链推理框架<br>[摘要](abstracts/2601.13976.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉语言导航（VLN）中实现人类水平的表现，要求具身智能体能够同时理解多模态指令与视觉空间上下文，并对长序列动作进行推理。近期研究，如NavCoT与NavGPT-2，展示了思维链（CoT）推理在提升可解释性与长程规划能力方面的潜力。此外，OctoNav-R1和CoT-VLA等多模态扩展进一步验证了CoT作为实现类人导航推理的有效路径。然而，现有方法存在明显缺陷：纯文本CoT缺乏空间基础，易因稀疏标注的推理步骤而过拟合；而多模态CoT通过生成想象的视觉观测导致严重的令牌膨胀，使得实时导航难以实现。本文提出FantasyVLN，一个统一的隐式推理框架，在保留CoT推理优势的同时避免了显式的令牌开销。具体而言，在CoT推理训练中，我们使用预训练的视觉自回归模型（VAR）将想象的视觉令牌编码至紧凑的潜在空间，并通过统一的多CoT策略，使模型能够从文本、视觉及多模态CoT模式中联合学习。在推理阶段，我们的模型直接执行从指令到动作的映射，同时仍受益于推理感知的表征。在LH-VLN数据集上的大量实验表明，该方法实现了兼具推理感知与实时性的导航，不仅提升了成功率与效率，而且相比显式CoT方法，推理延迟降低了一个数量级。