X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models<br>X-GS：一个可扩展的开放框架，统一3DGS架构与下游多模态模型<br>[摘要](abstracts/2603.09632.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

3D高斯泼溅（3DGS）已成为新颖视图合成的强大技术，随后扩展到众多空间AI应用中。然而，大多数现有的3DGS方法相互孤立，专注于特定领域，如在线SLAM、语义增强或针对无位姿图像的3DGS。本文介绍X-GS，一个可扩展的开放框架，统一了广泛的技术，以实现基于3DGS的实时在线SLAM，并增强语义信息，弥合与下游多模态模型的鸿沟。X-GS的核心是一个名为X-GS-Perceiver的高效流水线，能够以无位姿RGB（或可选的RGB-D）视频流作为输入，共同优化几何与位姿，并将视觉基础模型中的高维语义特征提炼到3D高斯中。我们通过新颖的在线向量量化（VQ）模块、GPU加速的网格采样方案以及高度并行化的流水线设计实现了实时性能。语义3D高斯随后可在X-GS-Thinker组件中被视觉-语言模型利用，支持下游任务，如物体检测、零样本字幕生成以及潜在的具身任务。在真实世界数据集上的实验结果展示了X-GS框架的有效性、效率及其新解锁的多模态能力。

← Back