Abstract not available.
大型视觉语言模型(LVLMs)在视觉推理任务上表现出色,但仍极易产生幻觉。现有检测方法主要依赖于对象标记与输入图像之间粗略的全局相关性度量。这种全局策略存在局限:幻觉标记可能在许多局部区域表现出微弱但广泛分散的相关性,这些相关性聚合为看似较高的整体关联度,从而逃避当前全局幻觉检测器的识别。我们从一个简单而关键的观察入手:一个忠实对象标记必须牢固地定位于特定图像区域。基于这一洞见,我们引入了一种基于图像块的幻觉检测框架,该框架检查模型各层间的细粒度标记级交互。我们的分析揭示了幻觉标记的两个特征性签名:(i)它们产生分散、非局部化的注意力模式,与忠实标记中紧凑、聚焦良好的注意力形成对比;(ii)它们未能与任何视觉区域展现出有意义的语义对齐。在这些发现的指导下,我们开发了一种轻量级且可解释的检测方法,该方法利用图像块级统计特征,并结合隐藏层表示。我们的方法在标记级幻觉检测中达到了高达90%的准确率,证明了细粒度结构分析在检测幻觉方面的优越性。