GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System<br>GoalVLM：面向多智能体系统的视觉语言模型驱动目标物体导航<br>[摘要](abstracts/2603.18210.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

目标物体导航传统上局限于地面机器人及封闭式物体词汇集。现有的多智能体方法依赖于与固定类别集绑定的预计算概率图，导致在测试时无法泛化至新目标。本文提出GoalVLM，一种用于零样本、开放词汇目标导航的协作式多智能体框架。GoalVLM将视觉语言模型直接集成到决策循环中，结合SAM3进行文本提示检测与分割，以及SpaceOM进行空间推理，使智能体能够理解自由形式的语言目标，并通过零样本语义先验对前沿区域进行评分，无需重新训练。每个智能体通过深度投影体素喷洒构建BEV语义地图，同时目标投影器通过校准深度将检测结果反向投影至地图中，实现可靠的目标定位。约束引导推理层通过结构化提示链（场景描述、房间类型分类、感知门控、多前沿区域排序）评估前沿区域，将常识先验注入探索过程。我们在GOAT-Bench val_unseen数据集（包含360个多子任务场景、1032个顺序目标物体子任务、HM3D场景）上评估GoalVLM，每个场景需导航至5-7个开放词汇目标链。采用N=2智能体的GoalVLM实现了55.8%的子任务成功率和18.3%的路径长度加权成功率，与最先进方法表现相当，且无需任务特定训练。消融研究证实了视觉语言模型引导的前沿推理和深度投影目标定位的贡献。

← Back