Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning<br>规模无法克服语用学：报告偏差对视觉-语言推理的影响<br>[摘要](abstracts/2602.23351.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型（VLMs）在推理能力上的缺失一直是研究讨论的焦点。我们认为，这种行为源于其训练数据中的报告偏差。也就是说，人们默认在描述视觉内容时，会省略监督某些类型推理所需的隐含信息；例如，“今天在比赛现场！”比“一张37人站在场地后面的照片”更可能作为标题。我们通过语用学理论的视角，调查了流行VLMs（OpenCLIP、LLaVA-1.5和Molmo）的基础数据，发现尽管这些语料库达到网络规模且/或为合成生成，报告偏差仍导致四种推理技能（空间、时间、否定和计数）的表示不足。通过一组精心设计的基准测试，我们证明：（i）VLMs在训练数据中因报告偏差而受到抑制的上述推理类型上表现不佳；（ii）与普遍看法相反，扩大数据规模、模型规模以及扩展到多种语言，并不会默认导致这些技能的出现；但（iii）有希望的是，纳入专门收集以获取隐含信息的标注是有效的。我们的发现强调了需要更审慎的训练数据整理方法，而非依赖规模来期待推理能力的自然涌现。

← Back