Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences<br>评估视觉语言模型在机器人运动中的空间推理能力：迈向融合运动偏好的机器人规划<br>[摘要](abstracts/2603.13100.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

理解用户指令和环境中物体的空间关系对于智能机器人系统协助人类完成各类任务至关重要。视觉语言模型（VLMs）的自然语言与空间推理能力有望提升机器人规划器在新任务、新对象及运动规范上的泛化性能。尽管基础模型已应用于任务规划，但其是否具备满足用户偏好或运动约束（如与物体的期望距离、拓扑特性或运动风格偏好）所需的空间推理能力，目前尚不明确。本文通过四种不同的查询方法，评估了四种前沿视觉语言模型在机器人运动空间推理方面的能力。结果显示，在性能最佳的查询方法下，Qwen2.5-VL实现了71.4%的零样本准确率，经微调后的小型模型准确率达75%，而GPT-4o的表现则相对较低。我们评估了两种运动偏好类型（物体接近度与路径风格），并分析了准确率与计算成本（以令牌数为衡量）之间的权衡。这项工作初步展现了视觉语言模型与机器人运动规划流程融合的潜力。

← Back