Auto-Comp: An Automated Pipeline for Scalable Compositional Probing of Contrastive Vision-Language Models<br>Auto-Comp：面向对比式视觉语言模型可扩展组合性探测的自动化流程<br>[摘要](abstracts/2602.02043.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现代视觉语言模型在组合推理方面存在关键缺陷，常将‘红色立方体和蓝色球体’与‘蓝色立方体和红色球体’混淆。解构这些失败的视觉与语言根源是鲁棒性评估的根本挑战。为实现细粒度、可控的分析，我们引入了Auto-Comp，一个用于生成可扩展基准测试的完全自动化合成流程。其可控特性是剖析和隔离不同推理技能的关键。Auto-Comp从最小化描述（如‘白色背景上一辆自行车左侧的显示器’）和LLM生成的上下文描述（如‘在明亮摄影棚中，显示器位于自行车左侧’）生成配对图像，通过受控的A/B测试来分离核心绑定能力与视觉语言复杂性。我们对20个视觉语言模型在颜色绑定和空间关系新基准上的评估显示，CLIP和SigLIP模型家族普遍存在组合性失败。关键的是，我们新颖的‘混淆基准’揭示了超越简单属性交换的更深层缺陷：模型极易受低熵干扰项（如重复物体或颜色）影响，表明其组合性失败超出了已知的词袋模型限制。我们揭示了一个令人惊讶的权衡：提供全局场景线索的视觉语言上下文虽有助于空间推理，但同时会因引入视觉杂乱而阻碍局部属性绑定。我们发布Auto-Comp流程以促进未来基准测试的创建，并附上所有生成的基准测试集（https://huggingface.co/AutoComp）。

← Back