Discovering Failure Modes in Vision-Language Models using RL<br>利用强化学习探索视觉语言模型的失效模式<br>[摘要](abstracts/2604.04733.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)虽然在多模态基准测试中表现出色,却常常误解人类能够轻松识别的直观视觉概念,例如计数、空间推理和视角理解。先前的研究通过人工方式识别这些弱点,并发现它们往往源于特定技能的缺失。然而,这种人工方法成本高昂、难以扩展,且易受人类偏见影响,通常倾向于关注显著物体而忽略细微细节,导致对模型脆弱性的理解不完整。为克服这些局限,我们提出了一种基于强化学习(RL)的框架,能够在无需人工干预的情况下,自动发现任何候选VLM在给定数据分布上的失效模式或盲点。该框架训练一个提问者智能体,根据候选VLM的响应自适应生成查询,以诱导其产生错误答案。我们的方法通过聚焦细粒度视觉细节和不同技能组合,随着训练进程逐步增加问题复杂度,从而识别出36种VLMs难以应对的新型失效模式。通过展示该框架在不同模型组合间的泛化能力,我们证明了其广泛的适用性。

← Back