Vision-Language Models vs Human: Perceptual Image Quality Assessment<br>视觉语言模型与人类：感知图像质量评估对比<br>[摘要](abstracts/2603.24578.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

心理物理学实验仍是感知图像质量评估（IQA）最可靠的方法，但其成本高昂且可扩展性有限，促使自动化方法的发展。本研究探讨视觉语言模型（VLMs）能否在三个图像质量维度——对比度、色彩丰富度和整体偏好——上近似人类感知判断。我们对比了六种VLM（四种专有模型和两种开源权重模型）与心理物理学数据，系统性地评估了VLM在感知IQA中的表现。结果显示，模型表现存在显著的属性依赖性差异：在色彩丰富度上与人类高度一致（ρ最高达0.93）的模型，在对比度评估上表现较差，反之亦然。属性权重分析进一步表明，在评估整体偏好时，大多数VLM与心理物理学数据类似，赋予色彩丰富度比对比度更高的权重。模型内部一致性分析揭示了一个反直觉的权衡：最自洽的模型未必与人类判断最一致，这表明响应变异性反映了模型对场景依赖感知线索的敏感性。此外，人类与VLM的一致性随感知可分离性增强而提高，说明当刺激差异表达清晰时，VLM的可靠性更高。

← Back