Discovering Failure Modes in Vision-Language Models using RL<br>利用强化学习探索视觉语言模型的失效模式<br>[摘要](abstracts/2604.04733.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）虽然在多模态基准测试中表现出色，却常常误解人类能够轻松识别的直观视觉概念，例如计数、空间推理和视角理解。先前的研究通过人工方式识别这些弱点，并发现它们往往源于特定技能的缺失。然而，这种人工方法成本高昂、难以扩展，且易受人类偏见影响，通常倾向于关注显著物体而忽略细微细节，导致对模型脆弱性的理解不完整。为克服这些局限，我们提出了一种基于强化学习（RL）的框架，能够在无需人工干预的情况下，自动发现任何候选VLM在给定数据分布上的失效模式或盲点。该框架训练一个提问者智能体，根据候选VLM的响应自适应生成查询，以诱导其产生错误答案。我们的方法通过聚焦细粒度视觉细节和不同技能组合，随着训练进程逐步增加问题复杂度，从而识别出36种VLMs难以应对的新型失效模式。通过展示该框架在不同模型组合间的泛化能力，我们证明了其广泛的适用性。

← Back