Less Detail, Better Answers: Degradation-Driven Prompting for VQA<br>细节越少，答案越好：面向视觉问答的降质驱动提示方法<br>[摘要](abstracts/2604.04838.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期视觉语言模型（VLMs）的进展显著推动了视觉问答（VQA）领域的发展。然而，高分辨率细节有时会成为噪声，导致模型产生幻觉或推理错误。本文提出了一种新颖的降质驱动提示（DDP）框架，通过策略性地降低图像保真度，迫使模型聚焦于关键结构信息，从而提升VQA性能。我们在两项不同任务中评估了DDP方法。在物理属性任务中，针对易受人类误判的图像，DDP结合了80p下采样、结构视觉辅助（白色背景遮罩与正交线条）及上下文学习（ICL）来校准模型关注点。在感知现象任务中，处理多种机器易受影响的视觉异常与错觉，包括视觉异常（VA）、颜色（CI）、运动（MI）、格式塔（GI）、几何（GSI）及视觉错觉（VI）。为此，DDP整合了任务分类阶段，并专门采用模糊遮罩、对比度增强及下采样等工具。实验结果表明，少即是多：通过有意降质视觉输入并提供针对性结构提示，DDP使VLMs能够避开干扰性纹理，在具有挑战性的视觉基准测试中实现更优的推理准确率。

← Back