Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders<br>视觉语言模型是否需要视觉Transformer？评估状态空间模型作为视觉编码器的表现<br>[摘要](abstracts/2603.19209.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型通常采用冻结的视觉主干网络，其图像特征通过轻量级连接器映射到大型语言模型中。虽然基于Transformer的编码器是标准的视觉主干，但我们探讨状态空间模型视觉主干是否可作为强有力的替代方案。我们在受控环境下系统评估了视觉语言模型中状态空间模型视觉主干的表现。在匹配的ImageNet-1K初始化条件下，状态空间模型主干在视觉问答和定位/接地任务中均展现出最佳整体性能。我们进一步通过检测或分割训练对状态空间模型和ViT系列主干进行适配，发现密集任务调优普遍能提升各系列模型的性能；经过此适配后，状态空间模型主干在显著更小的模型规模下仍保持竞争力。我们还观察到：（i）更高的ImageNet准确率或更大的主干网络并不总能转化为更好的视觉语言模型性能；（ii）部分视觉主干在定位任务中存在不稳定性。基于这些发现，我们提出了提升两种主干家族鲁棒性的稳定策略，并强调状态空间模型主干是视觉语言模型中基于Transformer视觉编码器的有力替代方案。

← Back