Mitigating Multimodal Hallucination via Phase-wise Self-reward<br>通过分阶段自奖励缓解多模态幻觉<br>[摘要](abstracts/2604.17982.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)仍面临视觉幻觉问题,即生成的响应与视觉输入不一致。现有方法要么依赖大规模标注数据进行微调,导致巨大的计算开销,要么采用静态的后处理策略,忽视了幻觉出现的动态特性。为解决这些问题,我们引入了一种新的自奖励框架,能够在无需外部监督的情况下,在推理时动态缓解幻觉。在实证方面,我们发现视觉幻觉表现出分阶段的动态模式,在每个语义阶段开始时达到峰值。基于这些洞察,我们提出了PSRD(分阶段自奖励解码),通过分阶段自奖励信号指导在线幻觉校正。为降低解码过程中重复自我评估的成本,我们将幻觉引导信号从LVLMs蒸馏到一个轻量级奖励模型中。该奖励模型随后在解码过程中提供实时指导,实现有针对性的干预,从而精确抑制幻觉。所提出的PSRD将LLaVA-1.5-7B的幻觉率显著降低了50.0%,并在针对四种LVLMs的五个幻觉评估基准测试中,持续优于现有的后处理方法。进一步分析证实,PSRD有效缓解了幻觉传播,并在强性能和推理效率之间实现了高度可控的权衡。

← Back