Abstract not available.
视觉-语言模型(VLMs)在推理能力上的缺失一直是研究讨论的焦点。我们认为,这种行为源于其训练数据中的报告偏差。也就是说,人们默认在描述视觉内容时,会省略监督某些类型推理所需的隐含信息;例如,“今天在比赛现场!”比“一张37人站在场地后面的照片”更可能作为标题。我们通过语用学理论的视角,调查了流行VLMs(OpenCLIP、LLaVA-1.5和Molmo)的基础数据,发现尽管这些语料库达到网络规模且/或为合成生成,报告偏差仍导致四种推理技能(空间、时间、否定和计数)的表示不足。通过一组精心设计的基准测试,我们证明:(i)VLMs在训练数据中因报告偏差而受到抑制的上述推理类型上表现不佳;(ii)与普遍看法相反,扩大数据规模、模型规模以及扩展到多种语言,并不会默认导致这些技能的出现;但(iii)有希望的是,纳入专门收集以获取隐含信息的标注是有效的。我们的发现强调了需要更审慎的训练数据整理方法,而非依赖规模来期待推理能力的自然涌现。