CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning<br>CoME-VL:扩展互补多编码器视觉-语言学习<br>[摘要](abstracts/2604.03231.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前的视觉-语言模型通常依赖单一视觉编码器,并采用对比式图像-文本目标(如CLIP风格预训练)进行训练。尽管对比编码器在跨模态对齐与检索任务中表现优异,但自监督视觉编码器往往能捕捉更丰富的密集语义,并在识别与理解任务中展现出更强的鲁棒性。本研究探索如何扩展这两种互补视觉表征的融合以优化视觉-语言建模。我们提出CoME-VL(互补多编码器视觉-语言模型),这是一个模块化融合框架,通过整合对比训练的视觉编码器与自监督DINO编码器实现互补。我们的方法在表征层面进行融合,具体包括:(1)采用熵引导的多层聚合与正交约束投影以减少冗余;(2)通过RoPE增强的交叉注意力对齐异构令牌网格,生成紧凑的融合视觉令牌。融合后的令牌可注入仅解码器架构的大语言模型中,且对标准视觉-语言模型流程改动极小。在多样化的视觉-语言基准测试中,CoME-VL始终优于单编码器基线模型。特别地,我们在视觉理解任务中平均提升4.9%,在定位任务中平均提升5.4%。本方法在RefCOCO检测任务上达到最先进性能,且较基线模型有显著提升。最后,我们通过消融实验对层级融合、非冗余特征混合及融合容量进行分析,以评估对比学习与自监督信号的互补性如何影响视觉-语言模型性能。

← Back