Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models<br>眼见不为实：揭示评估型视觉语言模型中的盲点<br>[摘要](abstracts/2604.21523.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（VLM）正越来越多地被用于评估其他模型的输出，应用于图像到文本（I2T）任务（如视觉问答）以及文本到图像（T2I）生成任务。尽管这种依赖性日益增强，这些评估型VLM的可靠性仍未得到充分探索。在本工作中，我们系统性地评估了评估型VLM在I2T和T2I任务中的可靠性。我们引入了定向扰动，以沿关键错误维度降低输出质量，包括物体幻觉、空间推理、事实基础以及视觉保真度。这些扰动旨在测试评估型VLM是否能在其评估中可靠地考虑这些质量降低的错误。通过使用一个包含超过4000个扰动实例、涵盖40个扰动维度的综合基准，我们采用单答案评分、成对比较和参考引导范式评估了4个主流VLM。我们的研究结果揭示，当前的VLM评估器存在显著的盲点：它们常常无法检测到扰动输出——在某些情况下失败率超过50%，尤其难以处理细粒度的组合性和空间错误，并且往往对与输入图像相矛盾的幻觉内容不敏感。成对比较被证明更可靠，但失败率仍然存在。这些结果凸显了当前评估型VLM的不可靠性，并敦促在将其部署用于基准测试和开发决策时保持谨慎。代码和数据已公开提供。

← Back