GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation<br>GenSeg-R1：基于强化学习的视觉语言细粒度指代分割<br>[摘要](abstracts/2602.09701.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文通过解耦的‘先推理后分割’流程研究细粒度指代图像分割。视觉语言模型接收图像和自然语言查询，对场景进行推理，并输出结构化空间提示：每个指代实例的边界框及两个内部关键点。冻结的可提示分割器将这些提示转换为高质量掩码。在GenSeg-R1框架中，我们使用组相对策略优化对Qwen3-VL模型进行微调，无需监督式推理链标注。在RefCOCOg验证集上，最佳模型达到0.7127 cIoU和0.7382 mIoU，显著超越基线模型，并在相同评估条件下优于Seg-Zero-7B。我们还提出GenSeg-R1-G变体，通过SAM 2在线奖励直接优化掩码质量，在GRefCOCO验证集上实现76.69%目标mIoU和82.40%负提示准确率，大幅超越现有模型。在ReasonSeg测试集上，GenSeg-R1-4B达到68.40% mIoU，领先Seg-Zero-7B和Seg-R1-7B。

← Back