Abstract not available.
与人类协作的机器人必须将自然语言目标转化为可执行、物理上接地的决策。例如,执行“走到冰箱右侧两米处”这样的指令,需要在三维场景中对语义参照、空间关系和度量约束进行接地。尽管当前的视觉语言模型(VLMs)展现出强大的语义接地能力,但它们并未专门设计用于在物理定义的空间中推理度量约束。本研究通过实证表明,基于最先进VLM的接地方法在处理复杂的度量-语义语言查询时存在困难。为克服这一局限,我们提出了MAPG(多智能体概率性接地),这是一个智能体框架,能够将语言查询分解为结构化子组件,并通过查询VLM对每个组件进行接地。随后,MAPG以概率方式组合这些接地输出,以在三维空间中生成度量一致且可执行的决策。我们在HM-EQA基准上评估MAPG,结果显示其性能持续优于现有强基线方法。此外,我们引入了一个新基准MAPG-Bench,专门用于评估度量-语义目标接地能力,以弥补现有语言接地评估的不足。我们还展示了真实世界机器人演示,表明当具备结构化场景表示时,MAPG能够有效迁移至仿真环境之外。