Abstract not available.
当前视觉语言模型(VLMs)的发展趋势是增强其在具身领域中的空间认知能力。尽管已取得进展,但现有评估在范式与覆盖范围上均存在局限,阻碍了模型的快速迭代开发。为应对这些限制,我们提出了ESPIRE——一个用于具身空间推理的诊断性基准。ESPIRE提供了一个模拟世界,将VLMs置于物理环境中,并在以空间推理为核心的机器人任务上对其进行评估,从而缩小了评估与实际部署之间的差距。为使VLMs适应机器人任务,我们将每个任务分解为定位与执行两个阶段,并将二者均构建为生成式问题,这与当前主流的基于干扰项且忽略执行的判别式评估(如通过视觉问答)形成鲜明对比。这种分解进一步支持了从被动空间推理到行动推理的细粒度分析。我们在指令层面和环境层面系统性地设计了ESPIRE,确保广泛覆盖空间推理场景。利用ESPIRE,我们对一系列前沿VLMs进行了诊断,并深入分析了它们的空间推理行为。