Abstract not available.
现代视觉语言模型在组合推理方面存在关键缺陷,常将‘红色立方体和蓝色球体’与‘蓝色立方体和红色球体’混淆。解构这些失败的视觉与语言根源是鲁棒性评估的根本挑战。为实现细粒度、可控的分析,我们引入了Auto-Comp,一个用于生成可扩展基准测试的完全自动化合成流程。其可控特性是剖析和隔离不同推理技能的关键。Auto-Comp从最小化描述(如‘白色背景上一辆自行车左侧的显示器’)和LLM生成的上下文描述(如‘在明亮摄影棚中,显示器位于自行车左侧’)生成配对图像,通过受控的A/B测试来分离核心绑定能力与视觉语言复杂性。我们对20个视觉语言模型在颜色绑定和空间关系新基准上的评估显示,CLIP和SigLIP模型家族普遍存在组合性失败。关键的是,我们新颖的‘混淆基准’揭示了超越简单属性交换的更深层缺陷:模型极易受低熵干扰项(如重复物体或颜色)影响,表明其组合性失败超出了已知的词袋模型限制。我们揭示了一个令人惊讶的权衡:提供全局场景线索的视觉语言上下文虽有助于空间推理,但同时会因引入视觉杂乱而阻碍局部属性绑定。我们发布Auto-Comp流程以促进未来基准测试的创建,并附上所有生成的基准测试集(https://huggingface.co/AutoComp)。