VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models<br>VLA-遗忘：面向具身基础模型的视觉-语言-动作联合遗忘<br>[摘要](abstracts/2604.03956.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型正逐渐成为机器人操控领域的具身基础模型，但其部署带来了新的遗忘挑战：如何在移除不安全、虚假或隐私敏感行为的同时，不损害感知、语言接地和动作控制能力。在OpenVLA类策略中，行为通过融合视觉编码器、跨模态投影器和预测分词化机器人动作的语言主干生成，因此不良知识可能分散在感知层、对齐层以及推理/动作层中，而非局限于单一模块。这导致仅针对视觉栈或仅针对语言主干的部分遗忘往往效果不足，而传统为独立视觉或语言模型设计的遗忘基线在具身场景中可能残留遗忘痕迹或造成不必要的性能损失。我们提出VLA-遗忘，一种混合遗忘框架，结合了面向感知与跨模态特异性的比率感知选择性编辑，以及面向推理/动作层的分层选择性遗忘，以实现效用保持的遗忘。VLA-遗忘通过分阶段更新视觉编码器、投影器和上层动作生成变换器块，联合优化三个目标：定向遗忘、感知保持与推理保留。在遗忘集行为探测和保留任务评估中，相较于强遗忘基线，VLA-遗忘将遗忘效能提升10%，感知特异性保持提高22%，推理与任务成功率保留提升9%，并将后量化恢复率降低55%。

← Back