Visual-ERM: Reward Modeling for Visual Equivalence<br>Visual-ERM：视觉等价性奖励建模<br>[摘要](abstracts/2603.13224.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉到代码任务要求模型将结构化视觉输入（如图表、表格和SVG）重构为具有高视觉保真度的可执行或结构化表示。尽管近期的大型视觉语言模型（LVLMs）通过监督微调取得了显著成果，但由于奖励信号不匹配，强化学习仍面临挑战。现有奖励方法要么依赖文本规则，要么采用粗糙的视觉嵌入相似度，两者均无法捕捉细粒度的视觉差异，且易受奖励欺骗的影响。本文提出视觉等价性奖励模型（Visual-ERM），这是一种多模态生成式奖励模型，可在渲染的视觉空间中直接评估视觉到代码的质量，提供细粒度、可解释且任务无关的反馈。将Visual-ERM集成到强化学习中后，Qwen3-VL-8B-Instruct在图表到代码任务上的性能提升了+8.4，并在表格和SVG解析任务上实现了稳定增益（平均提升+2.7和+4.1），同时通过反思与修订进一步增强了测试时的扩展能力。我们还引入了VisualCritic-RewardBench（VC-RewardBench），这是一个用于评估结构化视觉数据上细粒度图像间差异的基准测试，其中8B参数的Visual-ERM显著优于Qwen3-VL-235B-Instruct，并接近领先的闭源模型性能。我们的结果表明，无论任务特异性如何，细粒度的视觉奖励监督对于视觉到代码的强化学习既是必要的，也是充分的。

← Back