Efficient Encoder-Free Fourier-based 3D Large Multimodal Model<br>高效无编码器的基于傅里叶变换的3D大型多模态模型<br>[摘要](abstracts/2602.23153.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

处理3D数据的大型多模态模型通常依赖繁重的预训练视觉编码器来提取几何特征。尽管最近的2D LMM已开始为提升效率和可扩展性而摒弃此类编码器，但由于点云的无序性和大规模特性，将这一范式扩展到3D领域仍具挑战性。这引出了一个关键未解问题：如何设计一种无需笨重编码器即可高效且有效对无序3D数据进行标记化的LMM？我们提出了Fase3D，首个高效无编码器的基于傅里叶变换的3D场景LMM。Fase3D通过一种新颖的标记化器应对可扩展性和排列不变性的挑战，该标记化器结合点云序列化和快速傅里叶变换来近似自注意力机制。这一设计实现了一种高效且计算成本极低的架构，其建立在三项关键创新之上：首先，我们通过结构化超点紧凑表示大规模场景；其次，采用空间填充曲线序列化后接FFT，实现了高效的全局上下文建模和基于图的标记合并；最后，我们的傅里叶增强LoRA适配器以可忽略的成本向大语言模型注入全局频率感知交互。Fase3D在性能上媲美基于编码器的3D LMM，同时在计算和参数量上显著更高效。项目网站：https://tev-fbk.github.io/Fase3D。

← Back