Abstract not available.
VLM-as-a-Judge(视觉语言模型作为评判者)的可靠性对于视觉语言模型(VLMs)的自动评估至关重要。尽管近期取得进展,我们的分析揭示,VLM-as-a-Judge在决策时往往对图像关注有限,反而盲目倾向于信息量更丰富的答案,即使其能识别出该答案与图像内容相冲突。我们将此问题称为信息量偏见,它严重削弱了评判的可靠性。为解决此问题,我们提出了BIRCH(基于真实锚点的平衡信息量与正确性),这是一种评判范式,首先修正候选答案中与图像内容不一致之处,然后将答案与此修正版本进行比较。这使评判者的关注点从信息量转向基于图像的正确性。在多个模型和基准测试上的实验表明,BIRCH将信息量偏见降低了高达17%,并带来高达9.8%的性能提升。我们的工作揭示了当前VLM-as-a-Judge系统中一个被忽视但根本性的缺陷,并强调了更原则性设计的必要性。