HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models<br>HiPP-Prune：面向视觉语言模型的分层偏好条件结构化剪枝<br>[摘要](abstracts/2603.06270.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

为高效部署而对视觉语言模型（VLMs）进行剪枝具有挑战性，因为压缩不仅影响任务效用，还可能削弱视觉基础能力，甚至在同一稀疏度水平下加剧物体幻觉问题。本文提出HiPP-Prune，一种分层偏好条件结构化剪枝框架，将剪枝视为多目标下的条件资源分配问题。HiPP-Prune在规划层面进行决策：通过单次策略调用生成全局剪枝蓝图，将决策分解为总体稀疏度预算与逐层分配方案，并允许通过用户指定的偏好向量实现可查询的权衡。为应对VLM特有的失效模式，我们的策略状态整合了源自视觉标记与语言隐藏状态间注意力流的视觉敏感度信号，从而抑制对促进跨模态融合的视觉关键层的过度剪枝。我们采用规划层级的组相对策略优化（GRPO），在结合任务效用、幻觉鲁棒性（POPE）、压缩率以及受突触流启发的稳定性代理的多目标回报下优化剪枝方案，以减少高稀疏度区域的无益探索。在LLaVA模型上基于POPE和ScienceQA的实验表明，HiPP-Prune能够发现多样化的非支配剪枝方案，并在匹配的稀疏度预算下提供可控的鲁棒性-效用权衡。

← Back