Abstract not available.
实现视觉语言模型(VLMs)类人的空间智能,需要从二维观察中推断三维结构、识别三维空间中的物体属性与关系,并进行高层次的空间推理。本文提出一种原则性的层次化框架,将VLMs中三维空间理解的学习分解为从几何感知到抽象空间推理的四个渐进复杂层级。在此框架指导下,我们构建了一个自动化流程,处理约500万张图像及超过4500万个物体,为VLM的有监督微调生成涵盖多样化任务与场景的三维空间视觉问答对。我们还开发了一种结合度量尺度点云图作为辅助输入的RGB-D VLM,以进一步增强空间理解能力。大量实验表明,我们的方法在多个空间理解与推理基准测试中达到了最先进的性能,超越了专用空间模型及大型专有系统,如Gemini-2.5-pro和GPT-5。此外,我们的分析揭示了各层次任务级别间明确的依赖关系,为多层次任务设计如何促进三维空间智能的涌现提供了新的见解。