Vero: An Open RL Recipe for General Visual Reasoning<br>Vero:面向通用视觉推理的开源强化学习方案<br>[摘要](abstracts/2604.04917.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

构建一个能够跨越图表、科学、空间理解和开放式任务的视觉推理系统需要什么?最强大的视觉语言模型(VLMs)表明,这种广泛的视觉推理能力已触手可及,但其实现方案仍不明确,被封闭在非公开数据与专有强化学习(RL)流程中。我们推出了Vero,一个完全开源的视觉语言模型家族,在多样化的视觉推理任务中达到或超越了现有开源权重模型的性能。我们扩展了六大任务类别的强化学习数据与奖励机制,构建了包含59个数据集、60万样本的Vero-600K数据集,并设计了能够处理异构答案格式的任务路由奖励。Vero在性能上达到领先水平,在我们包含30个挑战性基准的评估套件VeroEval上,相比四个基础模型平均提升3.7至5.5分。以Qwen3-VL-8B-Instruct为起点,Vero在30个基准中的23个上超越了Qwen3-VL-8B-Thinking,且未使用额外的专有思维数据。当从相同基础模型训练时,Vero-600K在所有任务类别上均优于现有强化学习数据集。系统性消融实验表明,不同任务类别会引发性质各异的推理模式,这些模式在孤立情况下迁移效果较差,这提示广泛的数据覆盖是强化学习扩展效果的主要驱动力。所有数据、代码和模型均已开源发布。

← Back