When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs<br>当提示压倒视觉：LVLM中提示诱导的幻觉<br>[摘要](abstracts/2604.21911.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型视觉语言模型（LVLMs）的能力取得了显著进展，但这些系统仍然容易产生幻觉，即输出不基于视觉输入。先前的研究将LVLMs中的幻觉归因于视觉骨干网络局限性或语言组件的主导地位等因素，但这些因素的相对重要性仍不清楚。为解决这一歧义，我们提出了HalluScope基准，以更好地理解不同因素诱导幻觉的程度。我们的分析表明，幻觉很大程度上源于过度依赖文本先验和背景知识，特别是通过文本指令引入的信息。为缓解文本指令先验诱导的幻觉，我们提出了HalluVL-DPO框架，用于对现成LVLMs进行微调，使其生成更基于视觉的响应。HalluVL-DPO利用我们构建的精心策划的训练数据集进行偏好优化，引导模型更倾向于基于视觉的响应而非幻觉响应。我们证明，优化后的模型有效缓解了目标幻觉失效模式，同时在其他幻觉基准和视觉能力评估上保持或提升了性能。为支持可重复性和进一步研究，我们将在https://pegah-kh.github.io/projects/prompts-override-vision/ 公开发布评估基准、偏好训练数据集和代码。

← Back