Relational Scene Graphs for Object Grounding of Natural Language Commands<br>面向自然语言指令中物体定位的关系场景图<br>[摘要](abstracts/2602.04635.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着机器人在人类环境中的应用日益广泛,自然的人机交互需求愈发迫切。然而,理解自然语言指令要求机器人推断预期任务、将其分解为可执行动作,并将这些动作基于机器人对环境(包括相关物体、智能体和位置)的认知进行定位。这一挑战可通过结合大语言模型(LLMs)理解自然语言的能力与三维场景图(3DSGs)在环境语义表征中定位推断动作的能力来解决。然而,许多3DSGs缺乏物体间的显式空间关系,尽管人类在描述环境时常常依赖这些关系。本文探讨了将开放或封闭词汇的空间关系融入3DSGs是否能提升LLMs解释自然语言指令的能力。为此,我们提出了一种基于LLM的管道,用于从开放词汇语言指令中定位目标物体,以及一种基于视觉语言模型(VLM)的管道,用于从建图过程中捕获的图像向3DSGs添加开放词汇空间边。最后,通过一项研究评估了两种LLMs在目标物体定位下游任务中的表现。我们的研究表明,显式空间关系能有效提升LLMs的物体定位能力。此外,基于VLM的开放词汇关系生成在机器人捕获图像中具有可行性,但其相较于封闭词汇关系的优势较为有限。

← Back