Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning<br>不止于所见:无需微调,让CLIP理解否定的视觉描述<br>[摘要](abstracts/2602.21035.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

像CLIP这样的视觉-语言模型在理解否定概念时存在困难,常常将肯定和否定描述嵌入为相似表示(例如,将“没有狗”与包含狗的图片匹配)。现有方法通过微调CLIP的文本编码器来提升对否定的理解,但这可能导致过拟合。在本研究中,我们提出了CLIPGlasses,一种即插即用的框架,旨在增强CLIP理解否定视觉描述的能力。CLIPGlasses采用双阶段设计:Lens模块从文本嵌入中解耦否定语义,而Frame模块则预测上下文感知的排斥强度,该强度被整合到改进的相似度计算中,以惩罚与否定语义的对齐,从而减少误匹配。实验表明,配备CLIPGlasses的CLIP在领域内性能上具有竞争力,并在跨领域泛化方面超越了现有最先进方法。其优势在低资源条件下尤为明显,显示出更强的跨领域鲁棒性。

← Back