Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning<br>Spa3R:面向三维视觉推理的预测性空间场建模<br>[摘要](abstracts/2602.21186.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉语言模型在二维视觉理解方面表现出色,但其对三维空间——空间智能基石——的理解与推理能力仍显浅薄。现有方法试图通过依赖显式的三维模态,或为视觉语言模型注入部分视角条件化的几何先验来弥合这一领域鸿沟。然而,此类方法限制了可扩展性,并最终将隐含地从稀疏线索重建整体三维几何这一不适定任务强加于语言模型。本文主张,空间智能可仅从二维视觉中自然涌现,而非通过显式的空间指令调优强加实现。为此,我们提出了Spa3R,一种自监督框架,能够直接从无姿态的多视角图像中学习统一且视角不变的空间表示。Spa3R基于我们提出的预测性空间场建模范式构建,通过学习基于紧凑潜在表示合成任意未见视角的特征场,从而内化对底层三维场景的整体且连贯的理解。我们进一步通过轻量级适配器将预训练的Spa3R编码器集成到现有视觉语言模型中,形成Spa3-VLM,有效将语言推理锚定于全局空间上下文中。在具有挑战性的VSI-Bench上的实验表明,Spa3-VLM在三维视觉问答任务中达到了58.6%的最新准确率,显著超越了先前方法。这些结果凸显了预测性空间场建模作为推进空间智能的可扩展路径的潜力。代码发布于https://github.com/hustvl/Spa3R。

← Back