Less Detail, Better Answers: Degradation-Driven Prompting for VQA<br>细节越少,答案越好:面向视觉问答的降质驱动提示方法<br>[摘要](abstracts/2604.04838.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期视觉语言模型(VLMs)的进展显著推动了视觉问答(VQA)领域的发展。然而,高分辨率细节有时会成为噪声,导致模型产生幻觉或推理错误。本文提出了一种新颖的降质驱动提示(DDP)框架,通过策略性地降低图像保真度,迫使模型聚焦于关键结构信息,从而提升VQA性能。我们在两项不同任务中评估了DDP方法。在物理属性任务中,针对易受人类误判的图像,DDP结合了80p下采样、结构视觉辅助(白色背景遮罩与正交线条)及上下文学习(ICL)来校准模型关注点。在感知现象任务中,处理多种机器易受影响的视觉异常与错觉,包括视觉异常(VA)、颜色(CI)、运动(MI)、格式塔(GI)、几何(GSI)及视觉错觉(VI)。为此,DDP整合了任务分类阶段,并专门采用模糊遮罩、对比度增强及下采样等工具。实验结果表明,少即是多:通过有意降质视觉输入并提供针对性结构提示,DDP使VLMs能够避开干扰性纹理,在具有挑战性的视觉基准测试中实现更优的推理准确率。

← Back