Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models<br>面向视觉语言模型的无目标幻觉强化反学习<br>[摘要](abstracts/2605.08031.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLM)在隐私、版权和偏见方面引发日益增长的担忧,从而推动了机器反学习以移除敏感知识。然而,现有方法主要对语言解码器进行微调,导致浅层遗忘无法消除底层视觉表征,并常引入目标幻觉。我们提出HFRU,一种基于强化学习的反学习框架,作用于视觉编码器以实现深度语义移除。我们的两阶段方法将对齐破坏与基于GRPO的优化相结合,采用复合奖励函数,其中包含抽象奖励,该奖励鼓励语义上有效的替代并缓解幻觉。在目标识别和人脸身份任务上的实验表明,HFRU实现了超过98%的遗忘与保留性能,同时引入微乎其微的目标幻觉,显著优于先前方法。我们的代码和实现细节见https://github.com/XMUDeepLIT/HFRU。

← Back