GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation<br>GenSeg-R1:基于强化学习的视觉语言细粒度指代分割<br>[摘要](abstracts/2602.09701.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文通过解耦的‘先推理后分割’流程研究细粒度指代图像分割。视觉语言模型接收图像和自然语言查询,对场景进行推理,并输出结构化空间提示:每个指代实例的边界框及两个内部关键点。冻结的可提示分割器将这些提示转换为高质量掩码。在GenSeg-R1框架中,我们使用组相对策略优化对Qwen3-VL模型进行微调,无需监督式推理链标注。在RefCOCOg验证集上,最佳模型达到0.7127 cIoU和0.7382 mIoU,显著超越基线模型,并在相同评估条件下优于Seg-Zero-7B。我们还提出GenSeg-R1-G变体,通过SAM 2在线奖励直接优化掩码质量,在GRefCOCO验证集上实现76.69%目标mIoU和82.40%负提示准确率,大幅超越现有模型。在ReasonSeg测试集上,GenSeg-R1-4B达到68.40% mIoU,领先Seg-Zero-7B和Seg-R1-7B。

← Back