Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models<br>眼见不为实:揭示评估型视觉语言模型中的盲点<br>[摘要](abstracts/2604.21523.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(VLM)正越来越多地被用于评估其他模型的输出,应用于图像到文本(I2T)任务(如视觉问答)以及文本到图像(T2I)生成任务。尽管这种依赖性日益增强,这些评估型VLM的可靠性仍未得到充分探索。在本工作中,我们系统性地评估了评估型VLM在I2T和T2I任务中的可靠性。我们引入了定向扰动,以沿关键错误维度降低输出质量,包括物体幻觉、空间推理、事实基础以及视觉保真度。这些扰动旨在测试评估型VLM是否能在其评估中可靠地考虑这些质量降低的错误。通过使用一个包含超过4000个扰动实例、涵盖40个扰动维度的综合基准,我们采用单答案评分、成对比较和参考引导范式评估了4个主流VLM。我们的研究结果揭示,当前的VLM评估器存在显著的盲点:它们常常无法检测到扰动输出——在某些情况下失败率超过50%,尤其难以处理细粒度的组合性和空间错误,并且往往对与输入图像相矛盾的幻觉内容不敏感。成对比较被证明更可靠,但失败率仍然存在。这些结果凸显了当前评估型VLM的不可靠性,并敦促在将其部署用于基准测试和开发决策时保持谨慎。代码和数据已公开提供。

← Back