Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models<br>基于有限差分流优化的文本到图像模型强化学习后训练<br>[摘要](abstracts/2603.12893.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习(RL)已成为扩散基图像合成模型后训练的标准技术,因为它能够通过奖励信号学习,以显式提升图像质量和提示对齐等理想特性。本文提出一种在线RL变体,通过采样配对轨迹并将流速度拉向更有利图像的方向,从而降低模型更新的方差。与现有方法将每个采样步骤视为独立策略动作不同,我们将整个采样过程视为单一动作。实验采用高质量视觉语言模型和现成质量指标作为奖励,并使用广泛指标集评估输出结果。相比先前方法,我们的方法收敛更快,并产生更高的输出质量与提示对齐度。

← Back