Abstract not available.
视觉与语言导航(VLN)要求具身智能体将复杂的自然语言指令落地为在未知环境中的长程导航。尽管视觉语言模型(VLMs)具备强大的二维语义理解能力,但当前的VLN系统仍受限于有限的空间感知、2D-3D表示不匹配以及单目尺度模糊性。本文提出AgentVLN,一种新颖且高效的具身导航框架,可部署于边缘计算平台。我们将VLN建模为部分可观测半马尔可夫决策过程(POSMDP),并引入“VLM作为大脑”范式,通过即插即用的技能库将高层语义推理与感知规划解耦。为解决多层次表示不一致问题,我们设计了跨空间表示映射,将感知层的三维拓扑路径点投影至图像平面,为VLM生成像素对齐的视觉提示。基于此桥梁,我们整合了上下文感知的自校正与主动探索策略,以应对遮挡并抑制长轨迹中的误差累积。为进一步解决非结构化环境中指令的空间模糊性,我们提出了查询驱动的感知思维链(QD-PCoT)方案,赋予智能体主动寻求几何深度信息的元认知能力。最后,我们构建了AgentVLN-Instruct,一个大规模指令微调数据集,其动态阶段路由基于目标可见性条件。大量实验表明,AgentVLN在长程VLN基准测试中持续超越先前的最先进方法(SOTA),为下一代具身导航模型的轻量化部署提供了实用范式。代码:https://github.com/Allenxinn/AgentVLN。