Abstract not available.
幻觉问题一直是当前大型视觉语言模型(LVLM)发展与应用的重大障碍。为缓解幻觉,一种直观且有效的方法是在推理过程中直接增加对图像标记的关注权重。尽管这有效降低了幻觉率,但常导致描述重复。为解决此问题,我们首先分析了注意力模式,发现真实物体标记倾向于对生成文本分配更高的关注度,而幻觉标记则不然。这启发我们利用生成文本(其包含与指令相关的视觉信息和上下文知识)来减轻幻觉,同时保持语言连贯性。因此,我们提出了“对生成文本的关注”(IAT),并证明其能显著降低幻觉率,同时避免重复描述。为防止简单放大损害LVLM固有的预测能力,我们进一步探索了自适应IAT(AdaIAT),它采用分层阈值来控制干预时机,并根据每个注意力头的特性定制细粒度的放大强度。分析与实验均证明了AdaIAT的有效性。多个LVLM的结果显示,AdaIAT有效缓解了幻觉(在LLaVA-1.5上将幻觉率C_S和C_I分别降低了35.8%和37.1%),同时保持了语言表现和预测能力,实现了理想的平衡。