Abstract not available.
尽管大型视觉语言模型(LVLMs)的能力取得了显著进展,但这些系统仍然容易产生幻觉,即输出不基于视觉输入。先前的研究将LVLMs中的幻觉归因于视觉骨干网络局限性或语言组件的主导地位等因素,但这些因素的相对重要性仍不清楚。为解决这一歧义,我们提出了HalluScope基准,以更好地理解不同因素诱导幻觉的程度。我们的分析表明,幻觉很大程度上源于过度依赖文本先验和背景知识,特别是通过文本指令引入的信息。为缓解文本指令先验诱导的幻觉,我们提出了HalluVL-DPO框架,用于对现成LVLMs进行微调,使其生成更基于视觉的响应。HalluVL-DPO利用我们构建的精心策划的训练数据集进行偏好优化,引导模型更倾向于基于视觉的响应而非幻觉响应。我们证明,优化后的模型有效缓解了目标幻觉失效模式,同时在其他幻觉基准和视觉能力评估上保持或提升了性能。为支持可重复性和进一步研究,我们将在https://pegah-kh.github.io/projects/prompts-override-vision/ 公开发布评估基准、偏好训练数据集和代码。