CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning<br>CoME-VL：扩展互补多编码器视觉-语言学习<br>[摘要](abstracts/2604.03231.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前的视觉-语言模型通常依赖单一视觉编码器，并采用对比式图像-文本目标（如CLIP风格预训练）进行训练。尽管对比编码器在跨模态对齐与检索任务中表现优异，但自监督视觉编码器往往能捕捉更丰富的密集语义，并在识别与理解任务中展现出更强的鲁棒性。本研究探索如何扩展这两种互补视觉表征的融合以优化视觉-语言建模。我们提出CoME-VL（互补多编码器视觉-语言模型），这是一个模块化融合框架，通过整合对比训练的视觉编码器与自监督DINO编码器实现互补。我们的方法在表征层面进行融合，具体包括：（1）采用熵引导的多层聚合与正交约束投影以减少冗余；（2）通过RoPE增强的交叉注意力对齐异构令牌网格，生成紧凑的融合视觉令牌。融合后的令牌可注入仅解码器架构的大语言模型中，且对标准视觉-语言模型流程改动极小。在多样化的视觉-语言基准测试中，CoME-VL始终优于单编码器基线模型。特别地，我们在视觉理解任务中平均提升4.9%，在定位任务中平均提升5.4%。本方法在RefCOCO检测任务上达到最先进性能，且较基线模型有显著提升。最后，我们通过消融实验对层级融合、非冗余特征混合及融合容量进行分析，以评估对比学习与自监督信号的互补性如何影响视觉-语言模型性能。

← Back