Abstract not available.
统一视觉语言模型在多模态理解和生成方面已取得显著进展,但在生成多模态交错输出方面仍存在较大不足,而这一能力对于视觉叙事和逐步视觉推理等任务至关重要。本研究提出一种基于强化学习的后训练策略,旨在无需依赖大规模多模态交错数据集的情况下,解锁现有统一模型的这一能力。我们首先通过一个预热阶段,使用包含精选交错序列以及有限的多模态理解和文本到图像生成数据的混合数据集,使模型接触交错生成模式,同时保留其预训练能力。为进一步优化交错生成,我们提出了一个统一策略优化框架,将分组相对策略优化(GRPO)扩展至多模态场景。该方法在单一解码轨迹中联合建模文本与图像生成,并通过我们设计的新型混合奖励进行优化,这些奖励涵盖文本相关性、视觉-文本对齐以及结构保真度。此外,我们还引入了过程级奖励以提供逐步指导,从而提升复杂多模态任务中的训练效率。在MMIE和InterleavedBench上的实验表明,我们的方法显著提升了多模态交错生成的质量与连贯性。