Abstract not available.
视觉语言导航(VLN)对大型视觉语言模型(VLMs)提出了独特挑战,源于其固有的架构不匹配:VLMs主要基于静态、非具身的视觉语言任务进行预训练,这与导航的动态性、具身性及空间结构化特性存在根本冲突。现有基于大模型的方法常将丰富的视觉与空间信息转换为文本,迫使模型隐式推断复杂的视觉-拓扑关系,或限制其全局动作能力。为弥合这一差距,我们提出了TagaVLM(拓扑感知全局动作推理),一种端到端框架,显式地将拓扑结构注入VLM主干。为引入拓扑边信息,空间拓扑感知残差注意力(STAR-Att)将其直接集成到VLM的自注意力机制中,在保持预训练知识的同时实现内在的空间推理。为增强拓扑节点信息,交错导航提示强化了节点级的视觉-文本对齐。最终,借助嵌入的拓扑图,模型能够进行全局动作推理,实现鲁棒的路径修正。在R2R基准测试中,TagaVLM在基于大模型的方法中取得了最先进的性能,在未见环境中成功率(SR)达51.09%,SPL为47.18,分别以3.39%的SR和9.08的SPL超越先前工作。这表明,对于具身空间推理,针对小型开源VLMs的针对性增强比暴力模型缩放更为有效。代码将在发表后开源。项目页面:https://apex-bjut.github.io/Taga-VLM