Abstract not available.
视觉到代码任务要求模型将结构化视觉输入(如图表、表格和SVG)重构为具有高视觉保真度的可执行或结构化表示。尽管近期的大型视觉语言模型(LVLMs)通过监督微调取得了显著成果,但由于奖励信号不匹配,强化学习仍面临挑战。现有奖励方法要么依赖文本规则,要么采用粗糙的视觉嵌入相似度,两者均无法捕捉细粒度的视觉差异,且易受奖励欺骗的影响。本文提出视觉等价性奖励模型(Visual-ERM),这是一种多模态生成式奖励模型,可在渲染的视觉空间中直接评估视觉到代码的质量,提供细粒度、可解释且任务无关的反馈。将Visual-ERM集成到强化学习中后,Qwen3-VL-8B-Instruct在图表到代码任务上的性能提升了+8.4,并在表格和SVG解析任务上实现了稳定增益(平均提升+2.7和+4.1),同时通过反思与修订进一步增强了测试时的扩展能力。我们还引入了VisualCritic-RewardBench(VC-RewardBench),这是一个用于评估结构化视觉数据上细粒度图像间差异的基准测试,其中8B参数的Visual-ERM显著优于Qwen3-VL-235B-Instruct,并接近领先的闭源模型性能。我们的结果表明,无论任务特异性如何,细粒度的视觉奖励监督对于视觉到代码的强化学习既是必要的,也是充分的。