EmergeNav: Structured Embodied Inference for Zero-Shot Vision-and-Language Navigation in Continuous Environments<br>EmergeNav：面向连续环境中零样本视觉语言导航的结构化具身推理框架<br>[摘要](abstracts/2603.16947.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

连续环境下的零样本视觉语言导航（VLN-CE）对现代视觉语言模型（VLMs）仍具挑战。尽管这些模型编码了有用的语义先验，但其开放式推理无法直接转化为稳定的长时程具身执行。我们认为关键瓶颈不仅在于知识缺失，更在于缺乏组织指令跟随、感知定位、时序进度与阶段验证的执行结构。本文提出EmergeNav——一个将连续VLN建模为结构化具身推理的零样本框架。该框架融合了面向阶段化执行的“规划-求解-转换”层级结构、目标条件感知提取模块GIPE、用于进度定位的对比双记忆推理机制，以及角色分离的双视场感知系统以实现时间对齐的局部控制与边界验证。在VLN-CE任务中，EmergeNav仅使用开源VLM骨干网络，无需任务特定训练、显式地图、图搜索或航点预测器，即取得显著零样本性能：基于Qwen3-VL-8B模型达到30.00%的成功率（SR），基于Qwen3-VL-32B模型达到37.00% SR。这些结果表明，显式执行结构是将VLM先验转化为稳定具身导航行为的关键要素。

← Back