Relational Scene Graphs for Object Grounding of Natural Language Commands<br>面向自然语言指令中物体定位的关系场景图<br>[摘要](abstracts/2602.04635.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着机器人在人类环境中的应用日益广泛，自然的人机交互需求愈发迫切。然而，理解自然语言指令要求机器人推断预期任务、将其分解为可执行动作，并将这些动作基于机器人对环境（包括相关物体、智能体和位置）的认知进行定位。这一挑战可通过结合大语言模型（LLMs）理解自然语言的能力与三维场景图（3DSGs）在环境语义表征中定位推断动作的能力来解决。然而，许多3DSGs缺乏物体间的显式空间关系，尽管人类在描述环境时常常依赖这些关系。本文探讨了将开放或封闭词汇的空间关系融入3DSGs是否能提升LLMs解释自然语言指令的能力。为此，我们提出了一种基于LLM的管道，用于从开放词汇语言指令中定位目标物体，以及一种基于视觉语言模型（VLM）的管道，用于从建图过程中捕获的图像向3DSGs添加开放词汇空间边。最后，通过一项研究评估了两种LLMs在目标物体定位下游任务中的表现。我们的研究表明，显式空间关系能有效提升LLMs的物体定位能力。此外，基于VLM的开放词汇关系生成在机器人捕获图像中具有可行性，但其相较于封闭词汇关系的优势较为有限。

← Back