Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation<br>语义与度量：面向视觉语言导航的多智能体概率性接地方法<br>[摘要](abstracts/2603.19166.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

与人类协作的机器人必须将自然语言目标转化为可执行、物理上接地的决策。例如，执行“走到冰箱右侧两米处”这样的指令，需要在三维场景中对语义参照、空间关系和度量约束进行接地。尽管当前的视觉语言模型（VLMs）展现出强大的语义接地能力，但它们并未专门设计用于在物理定义的空间中推理度量约束。本研究通过实证表明，基于最先进VLM的接地方法在处理复杂的度量-语义语言查询时存在困难。为克服这一局限，我们提出了MAPG（多智能体概率性接地），这是一个智能体框架，能够将语言查询分解为结构化子组件，并通过查询VLM对每个组件进行接地。随后，MAPG以概率方式组合这些接地输出，以在三维空间中生成度量一致且可执行的决策。我们在HM-EQA基准上评估MAPG，结果显示其性能持续优于现有强基线方法。此外，我们引入了一个新基准MAPG-Bench，专门用于评估度量-语义目标接地能力，以弥补现有语言接地评估的不足。我们还展示了真实世界机器人演示，表明当具备结构化场景表示时，MAPG能够有效迁移至仿真环境之外。

← Back