Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding<br>生成模型通晓空间：释放隐式三维先验以促进场景理解<br>[摘要](abstracts/2603.19235.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管多模态大语言模型展现出令人印象深刻的语义能力，但它们常受限于空间盲区，难以进行细粒度的几何推理和物理动态理解。现有解决方案通常依赖于显式的三维模态或复杂的几何支架，这些方法受限于数据稀缺和泛化挑战。在本研究中，我们提出一种范式转变，即利用大规模视频生成模型中的隐式空间先验。我们认为，为合成时序连贯的视频，这些模型本质上学习了鲁棒的三维结构先验和物理规律。我们引入了VEGA-3D（视频提取生成感知），一种即插即用框架，将预训练的视频扩散模型重新用作潜在世界模拟器。通过从中间噪声层级提取时空特征，并通过令牌级自适应门控融合机制将其与语义表示整合，我们在无需显式三维监督的情况下，为多模态大语言模型注入了密集的几何线索。在三维场景理解、空间推理和具身操作基准上的广泛实验表明，我们的方法超越了现有最先进的基线，验证了生成先验为物理世界理解提供了可扩展的基础。代码已在https://github.com/H-EmbodVis/VEGA-3D公开提供。

← Back