PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning<br>PRISM：多模态强化学习中基于黑盒在线策略蒸馏的预对齐方法<br>[摘要](abstracts/2604.28123.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型多模态模型（LMMs）的标准后训练流程是先对精心编排的示例进行监督微调（SFT），然后通过具有可验证奖励的强化学习（RLVR）进行训练。然而，SFT引入了分布漂移，既不能保持模型原有的能力，也不能忠实地匹配监督分布。在多模态推理中，这一问题进一步加剧，因为感知错误和推理失败遵循不同的漂移模式，并在后续的强化学习过程中相互叠加。我们提出了PRISM，一个三阶段流程，通过在SFT和RLVR之间插入显式的分布对齐阶段来缓解这种漂移。基于在线策略蒸馏（OPD）原则，PRISM将对齐视为策略与混合专家（MoE）判别器之间的黑盒、响应级对抗博弈，该判别器包含专门的感知和推理专家，提供解耦的纠正信号，引导策略朝向监督分布，而无需访问教师logits。虽然126万个公开示例足以进行广泛的SFT初始化，但分布对齐需要更高保真度的监督；因此，我们从Gemini 3 Flash中收集了11.3万个额外示例，这些示例针对最难解决的未解问题，具有密集的视觉基础和逐步推理。在Qwen3-VL上的实验表明，PRISM在多种RL算法（GRPO、DAPO、GSPO）和多种多模态基准测试上持续提升下游RLVR性能，在4B和8B模型上分别比SFT-to-RLVR基线平均提高了4.4和6.0个百分点。我们的代码、数据和模型检查点已在https://github.com/XIAO4579/PRISM公开。

← Back