Tinted Frames: Question Framing Blinds Vision-Language Models<br>着色框架:问题框架使视觉语言模型失明<br>[摘要](abstracts/2603.19203.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)已被证明存在‘盲视’现象,即使在需要视觉推理的任务中,也常常未能充分利用其视觉输入。本研究表明,VLMs具有选择性盲视:它们会根据语言框架调整对视觉输入的关注程度,即使不同框架要求完全相同的视觉推理。通过视觉注意力作为探针,我们量化了框架如何改变对图像注意力的总量和分布。受限框架(如多项选择和是/否问答)与开放式框架相比,显著降低了对图像上下文的注意力,减少了对任务相关区域的聚焦,并将注意力转向无信息价值的标记。我们进一步证明,这种注意力分配不当是导致准确性下降和跨框架不一致的主要原因。基于这一机制性洞察,我们引入了一种轻量级提示调优方法,使用可学习标记来鼓励在开放式设置中观察到的稳健、基于视觉的注意力模式,从而增强视觉基础并提升跨框架性能。

← Back