VGGT-$Ω$<br>VGGT-Ω<br>[摘要](abstracts/2605.15195.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

前馈式重建模型（如VGGT）已被证明在性能上可与基于优化的传统重建方法相媲美，同时还能提供对其他任务有用的几何感知特征。本文表明，这类模型的质量会随模型和数据规模的扩大而呈现可预测的提升。为此，我们提出了VGGT-Ω，该模型在静态和动态场景的重建精度、效率及能力方面均有显著提升。为支撑这一前所未有的规模化训练，我们引入了若干改进：提升训练效率的架构变化、支持动态场景的高质量数据标注流程，以及一种自监督学习协议。我们简化了VGGT的架构，采用单一密集预测头配合多任务监督，并移除了代价高昂的高分辨率卷积层。此外，我们利用寄存器将场景信息聚合为紧凑表示，并引入寄存器注意力机制——该机制将帧间信息交换限制在这些寄存器内部，从而部分取代全局注意力。通过这种方式，VGGT-Ω在训练时仅需其前身约30%的GPU显存，使得我们能够使用较先前工作多15倍的监督数据进行训练，并能充分利用海量未标注视频数据。VGGT-Ω在多个基准测试中实现了静态与动态场景重建的优异结果，例如在Sintel数据集上，相机估计精度相较于此前最优方法提升了77%。我们还展示了学习到的寄存器能够增强视觉-语言-动作模型，并支持与语言的对齐，这表明重建可以成为空间理解的一种强大且可扩展的代理任务。项目页面：http://vggt-omega.github.io

← Back