Abstract not available.
图像深度伪造检测通过识别合成或篡改痕迹来区分伪造图像与真实图像。尽管大型视觉语言模型具备强大的图像理解能力,但将其应用于检测任务通常需要昂贵的微调,且难以泛化至多样且不断演变的篡改手法。本文提出语义一致证据包,一种无需训练的大型视觉语言模型框架,以证据驱动推理替代全图推断。该方法挖掘一组紧凑的可疑图像块标记,以最大程度揭示篡改线索:利用视觉编码器的CLS标记作为全局参考,将图像块特征聚类为语义连贯的组别,并通过融合度量对图像块进行评分——该度量结合了CLS引导的语义失配与基于频率及噪声的异常分析。为覆盖分散的篡改痕迹并避免冗余,该方法从每个聚类中采样少量高置信度图像块,并应用基于网格的非极大值抑制,最终生成一个证据包,用于指导冻结的大型视觉语言模型进行预测。在多样化基准测试上的实验表明,该方法在无需微调大型视觉语言模型的情况下,性能优于现有强基线模型。