Vision-Language Models vs Human: Perceptual Image Quality Assessment<br>视觉语言模型与人类:感知图像质量评估对比<br>[摘要](abstracts/2603.24578.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

心理物理学实验仍是感知图像质量评估(IQA)最可靠的方法,但其成本高昂且可扩展性有限,促使自动化方法的发展。本研究探讨视觉语言模型(VLMs)能否在三个图像质量维度——对比度、色彩丰富度和整体偏好——上近似人类感知判断。我们对比了六种VLM(四种专有模型和两种开源权重模型)与心理物理学数据,系统性地评估了VLM在感知IQA中的表现。结果显示,模型表现存在显著的属性依赖性差异:在色彩丰富度上与人类高度一致(ρ最高达0.93)的模型,在对比度评估上表现较差,反之亦然。属性权重分析进一步表明,在评估整体偏好时,大多数VLM与心理物理学数据类似,赋予色彩丰富度比对比度更高的权重。模型内部一致性分析揭示了一个反直觉的权衡:最自洽的模型未必与人类判断最一致,这表明响应变异性反映了模型对场景依赖感知线索的敏感性。此外,人类与VLM的一致性随感知可分离性增强而提高,说明当刺激差异表达清晰时,VLM的可靠性更高。

← Back