When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias<br>当视觉语言模型未见而判：揭示信息量偏见<br>[摘要](abstracts/2604.17768.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

VLM-as-a-Judge（视觉语言模型作为评判者）的可靠性对于视觉语言模型（VLMs）的自动评估至关重要。尽管近期取得进展，我们的分析揭示，VLM-as-a-Judge在决策时往往对图像关注有限，反而盲目倾向于信息量更丰富的答案，即使其能识别出该答案与图像内容相冲突。我们将此问题称为信息量偏见，它严重削弱了评判的可靠性。为解决此问题，我们提出了BIRCH（基于真实锚点的平衡信息量与正确性），这是一种评判范式，首先修正候选答案中与图像内容不一致之处，然后将答案与此修正版本进行比较。这使评判者的关注点从信息量转向基于图像的正确性。在多个模型和基准测试上的实验表明，BIRCH将信息量偏见降低了高达17%，并带来高达9.8%的性能提升。我们的工作揭示了当前VLM-as-a-Judge系统中一个被忽视但根本性的缺陷，并强调了更原则性设计的必要性。

← Back