Abstract not available.
大型视觉语言模型(LVLM)常出现幻觉问题,限制了其在现实应用中的安全部署。现有的LLM自评估方法依赖于模型对其自身输出正确性的估计能力,这虽能提升部署可靠性,但严重依赖语言先验,因此不适用于评估视觉条件预测。我们提出VAUQ,一种面向LVLM自评估的视觉感知不确定性量化框架,它明确度量模型输出对视觉证据的依赖程度。VAUQ引入了图像信息分数(IS),用于捕捉视觉输入带来的预测不确定性降低,并提出一种无监督核心区域掩蔽策略,以增强显著区域的影响。将预测熵与此核心掩蔽IS相结合,可得到一个无需训练的打分函数,能可靠反映答案正确性。综合实验表明,VAUQ在多个数据集上持续优于现有自评估方法。