Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment<br>Proxy3D：通过语义聚类与对齐实现高效视语言模型的3D表征<br>[摘要](abstracts/2605.08064.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视语言模型（VLM）的空间智能因实际应用中对三维世界推理的需求而引发研究兴趣。尽管取得了令人鼓舞的成果，现有方法大多沿用VLM的传统二维流程，并采用像素对齐表征作为视觉模态。然而，基于对应关系的隐式三维场景理解模型常难以实现空间一致性，而基于表征的含三维几何先验模型在视觉序列序列化方面缺乏效率。为此，我们提出Proxy3D方法，为视觉模态构建紧凑且全面的三维代理表征。仅以视频帧为输入，我们采用语义与几何编码器提取场景特征，进而通过语义感知聚类在三维空间中获取一组代理。为实现表征对齐，我们进一步整理了SpaceSpan数据集，并采用多阶段训练将所提出的三维代理表征融入VLM。当使用更短的视觉信息序列时，我们的方法在三维视觉问答、视觉定位及通用空间智能基准测试中达到了具有竞争力或领先的性能。

← Back