PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning<br>PRISM:多模态强化学习中基于黑盒在线策略蒸馏的预对齐方法<br>[摘要](abstracts/2604.28123.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型多模态模型(LMMs)的标准后训练流程是先对精心编排的示例进行监督微调(SFT),然后通过具有可验证奖励的强化学习(RLVR)进行训练。然而,SFT引入了分布漂移,既不能保持模型原有的能力,也不能忠实地匹配监督分布。在多模态推理中,这一问题进一步加剧,因为感知错误和推理失败遵循不同的漂移模式,并在后续的强化学习过程中相互叠加。我们提出了PRISM,一个三阶段流程,通过在SFT和RLVR之间插入显式的分布对齐阶段来缓解这种漂移。基于在线策略蒸馏(OPD)原则,PRISM将对齐视为策略与混合专家(MoE)判别器之间的黑盒、响应级对抗博弈,该判别器包含专门的感知和推理专家,提供解耦的纠正信号,引导策略朝向监督分布,而无需访问教师logits。虽然126万个公开示例足以进行广泛的SFT初始化,但分布对齐需要更高保真度的监督;因此,我们从Gemini 3 Flash中收集了11.3万个额外示例,这些示例针对最难解决的未解问题,具有密集的视觉基础和逐步推理。在Qwen3-VL上的实验表明,PRISM在多种RL算法(GRPO、DAPO、GSPO)和多种多模态基准测试上持续提升下游RLVR性能,在4B和8B模型上分别比SFT-to-RLVR基线平均提高了4.4和6.0个百分点。我们的代码、数据和模型检查点已在https://github.com/XIAO4579/PRISM公开。

← Back