Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models<br>面向视觉语言模型的无目标幻觉强化反学习<br>[摘要](abstracts/2605.08031.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLM）在隐私、版权和偏见方面引发日益增长的担忧，从而推动了机器反学习以移除敏感知识。然而，现有方法主要对语言解码器进行微调，导致浅层遗忘无法消除底层视觉表征，并常引入目标幻觉。我们提出HFRU，一种基于强化学习的反学习框架，作用于视觉编码器以实现深度语义移除。我们的两阶段方法将对齐破坏与基于GRPO的优化相结合，采用复合奖励函数，其中包含抽象奖励，该奖励鼓励语义上有效的替代并缓解幻觉。在目标识别和人脸身份任务上的实验表明，HFRU实现了超过98%的遗忘与保留性能，同时引入微乎其微的目标幻觉，显著优于先前方法。我们的代码和实现细节见https://github.com/XMUDeepLIT/HFRU。

← Back