Tinted Frames: Question Framing Blinds Vision-Language Models<br>着色框架：问题框架使视觉语言模型失明<br>[摘要](abstracts/2603.19203.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）已被证明存在‘盲视’现象，即使在需要视觉推理的任务中，也常常未能充分利用其视觉输入。本研究表明，VLMs具有选择性盲视：它们会根据语言框架调整对视觉输入的关注程度，即使不同框架要求完全相同的视觉推理。通过视觉注意力作为探针，我们量化了框架如何改变对图像注意力的总量和分布。受限框架（如多项选择和是/否问答）与开放式框架相比，显著降低了对图像上下文的注意力，减少了对任务相关区域的聚焦，并将注意力转向无信息价值的标记。我们进一步证明，这种注意力分配不当是导致准确性下降和跨框架不一致的主要原因。基于这一机制性洞察，我们引入了一种轻量级提示调优方法，使用可学习标记来鼓励在开放式设置中观察到的稳健、基于视觉的注意力模式，从而增强视觉基础并提升跨框架性能。

← Back