Abstract not available.
前馈式重建模型(如VGGT)已被证明在性能上可与基于优化的传统重建方法相媲美,同时还能提供对其他任务有用的几何感知特征。本文表明,这类模型的质量会随模型和数据规模的扩大而呈现可预测的提升。为此,我们提出了VGGT-Ω,该模型在静态和动态场景的重建精度、效率及能力方面均有显著提升。为支撑这一前所未有的规模化训练,我们引入了若干改进:提升训练效率的架构变化、支持动态场景的高质量数据标注流程,以及一种自监督学习协议。我们简化了VGGT的架构,采用单一密集预测头配合多任务监督,并移除了代价高昂的高分辨率卷积层。此外,我们利用寄存器将场景信息聚合为紧凑表示,并引入寄存器注意力机制——该机制将帧间信息交换限制在这些寄存器内部,从而部分取代全局注意力。通过这种方式,VGGT-Ω在训练时仅需其前身约30%的GPU显存,使得我们能够使用较先前工作多15倍的监督数据进行训练,并能充分利用海量未标注视频数据。VGGT-Ω在多个基准测试中实现了静态与动态场景重建的优异结果,例如在Sintel数据集上,相机估计精度相较于此前最优方法提升了77%。我们还展示了学习到的寄存器能够增强视觉-语言-动作模型,并支持与语言的对齐,这表明重建可以成为空间理解的一种强大且可扩展的代理任务。项目页面:http://vggt-omega.github.io