Abstract not available.
近期深度伪造视频检测(DFD)研究表明,预训练的视觉-语言模型(如CLIP)在检测不同身份间的伪造痕迹方面展现出强大的泛化能力。然而,现有方法仅侧重于利用视觉特征,忽视了其最显著的优势——潜在空间中丰富的视觉-语言语义。我们提出VLAForge,一种新颖的DFD框架,通过释放这种跨模态语义的潜力来增强模型在深度伪造检测中的判别能力。本研究:i) 通过ForgePerceiver增强VLM的视觉感知能力,该模块作为独立学习器,在保持预训练视觉-语言对齐知识的同时,从细粒度和整体层面捕捉多样且微妙的伪造线索;ii) 提供一种互补的判别性线索——身份感知的VLA分数,该分数通过将跨模态语义与ForgePerceiver学习的伪造线索相结合而得出。值得注意的是,VLA分数通过身份先验引导的文本提示进行增强,以捕捉针对每个身份定制的真实性线索,从而实现更具判别力的跨模态语义。在视频DFD基准测试(包括经典的面部替换伪造和最新的全脸生成伪造)上的综合实验表明,我们的VLAForge在帧级别和视频级别均显著优于现有最先进方法。代码发布于https://github.com/mala-lab/VLAForge。