X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models<br>X-GS:一个可扩展的开放框架,统一3DGS架构与下游多模态模型<br>[摘要](abstracts/2603.09632.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

3D高斯泼溅(3DGS)已成为新颖视图合成的强大技术,随后扩展到众多空间AI应用中。然而,大多数现有的3DGS方法相互孤立,专注于特定领域,如在线SLAM、语义增强或针对无位姿图像的3DGS。本文介绍X-GS,一个可扩展的开放框架,统一了广泛的技术,以实现基于3DGS的实时在线SLAM,并增强语义信息,弥合与下游多模态模型的鸿沟。X-GS的核心是一个名为X-GS-Perceiver的高效流水线,能够以无位姿RGB(或可选的RGB-D)视频流作为输入,共同优化几何与位姿,并将视觉基础模型中的高维语义特征提炼到3D高斯中。我们通过新颖的在线向量量化(VQ)模块、GPU加速的网格采样方案以及高度并行化的流水线设计实现了实时性能。语义3D高斯随后可在X-GS-Thinker组件中被视觉-语言模型利用,支持下游任务,如物体检测、零样本字幕生成以及潜在的具身任务。在真实世界数据集上的实验结果展示了X-GS框架的有效性、效率及其新解锁的多模态能力。

← Back