Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models<br>基于有限差分流优化的文本到图像模型强化学习后训练<br>[摘要](abstracts/2603.12893.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习（RL）已成为扩散基图像合成模型后训练的标准技术，因为它能够通过奖励信号学习，以显式提升图像质量和提示对齐等理想特性。本文提出一种在线RL变体，通过采样配对轨迹并将流速度拉向更有利图像的方向，从而降低模型更新的方差。与现有方法将每个采样步骤视为独立策略动作不同，我们将整个采样过程视为单一动作。实验采用高质量视觉语言模型和现成质量指标作为奖励，并使用广泛指标集评估输出结果。相比先前方法，我们的方法收敛更快，并产生更高的输出质量与提示对齐度。

← Back