ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models<br>ESPIRE：面向视觉语言模型具身空间推理的诊断性基准<br>[摘要](abstracts/2603.13033.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前视觉语言模型（VLMs）的发展趋势是增强其在具身领域中的空间认知能力。尽管已取得进展，但现有评估在范式与覆盖范围上均存在局限，阻碍了模型的快速迭代开发。为应对这些限制，我们提出了ESPIRE——一个用于具身空间推理的诊断性基准。ESPIRE提供了一个模拟世界，将VLMs置于物理环境中，并在以空间推理为核心的机器人任务上对其进行评估，从而缩小了评估与实际部署之间的差距。为使VLMs适应机器人任务，我们将每个任务分解为定位与执行两个阶段，并将二者均构建为生成式问题，这与当前主流的基于干扰项且忽略执行的判别式评估（如通过视觉问答）形成鲜明对比。这种分解进一步支持了从被动空间推理到行动推理的细粒度分析。我们在指令层面和环境层面系统性地设计了ESPIRE，确保广泛覆盖空间推理场景。利用ESPIRE，我们对一系列前沿VLMs进行了诊断，并深入分析了它们的空间推理行为。

← Back