SteerSeg: Attention Steering for Reasoning Video Segmentation<br>SteerSeg:面向推理视频分割的注意力引导<br>[摘要](abstracts/2605.14908.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频推理分割需要根据自然语言表达在视频帧中定位对象,这通常涉及空间推理和隐含指代。近期方法利用冻结的大规模视觉语言模型(LVLMs),通过提取注意力图并将其作为分割的空间先验,实现了无需训练的定位能力。然而,这些注意力图是为文本生成而非空间定位优化的,常导致模糊和歧义的定位信号。本文提出SteerSeg,一个轻量级框架,将注意力错位识别为基于注意力定位的关键瓶颈,并通过输入级条件引导注意力源头。SteerSeg结合了可学习的软提示与推理引导的链式思维(CoT)提示。软提示重塑注意力分布以生成更集中的空间图,而CoT衍生的属性通过引导注意力指向正确实例,解决相似对象间的歧义。所得注意力图跨关键帧转换为点提示,以引导分割模型,同时基于相关性评分对候选轨迹进行排序和选择。我们的方法冻结LVLM和分割模型参数,仅学习少量软提示,在显著改善定位的同时保留模型的预训练推理能力。尽管仅在Ref-YouTube-VOS上训练,SteerSeg在多个基准上表现良好,显著提升了LVLMs的空间定位能力。项目页面:https://steerseg.github.io

← Back