Vero: An Open RL Recipe for General Visual Reasoning<br>Vero：面向通用视觉推理的开源强化学习方案<br>[摘要](abstracts/2604.04917.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

构建一个能够跨越图表、科学、空间理解和开放式任务的视觉推理系统需要什么？最强大的视觉语言模型（VLMs）表明，这种广泛的视觉推理能力已触手可及，但其实现方案仍不明确，被封闭在非公开数据与专有强化学习（RL）流程中。我们推出了Vero，一个完全开源的视觉语言模型家族，在多样化的视觉推理任务中达到或超越了现有开源权重模型的性能。我们扩展了六大任务类别的强化学习数据与奖励机制，构建了包含59个数据集、60万样本的Vero-600K数据集，并设计了能够处理异构答案格式的任务路由奖励。Vero在性能上达到领先水平，在我们包含30个挑战性基准的评估套件VeroEval上，相比四个基础模型平均提升3.7至5.5分。以Qwen3-VL-8B-Instruct为起点，Vero在30个基准中的23个上超越了Qwen3-VL-8B-Thinking，且未使用额外的专有思维数据。当从相同基础模型训练时，Vero-600K在所有任务类别上均优于现有强化学习数据集。系统性消融实验表明，不同任务类别会引发性质各异的推理模式，这些模式在孤立情况下迁移效果较差，这提示广泛的数据覆盖是强化学习扩展效果的主要驱动力。所有数据、代码和模型均已开源发布。

← Back