Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning<br>不止于所见：无需微调，让CLIP理解否定的视觉描述<br>[摘要](abstracts/2602.21035.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

像CLIP这样的视觉-语言模型在理解否定概念时存在困难，常常将肯定和否定描述嵌入为相似表示（例如，将“没有狗”与包含狗的图片匹配）。现有方法通过微调CLIP的文本编码器来提升对否定的理解，但这可能导致过拟合。在本研究中，我们提出了CLIPGlasses，一种即插即用的框架，旨在增强CLIP理解否定视觉描述的能力。CLIPGlasses采用双阶段设计：Lens模块从文本嵌入中解耦否定语义，而Frame模块则预测上下文感知的排斥强度，该强度被整合到改进的相似度计算中，以惩罚与否定语义的对齐，从而减少误匹配。实验表明，配备CLIPGlasses的CLIP在领域内性能上具有竞争力，并在跨领域泛化方面超越了现有最先进方法。其优势在低资源条件下尤为明显，显示出更强的跨领域鲁棒性。

← Back