SteerSeg: Attention Steering for Reasoning Video Segmentation<br>SteerSeg：面向推理视频分割的注意力引导<br>[摘要](abstracts/2605.14908.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频推理分割需要根据自然语言表达在视频帧中定位对象，这通常涉及空间推理和隐含指代。近期方法利用冻结的大规模视觉语言模型（LVLMs），通过提取注意力图并将其作为分割的空间先验，实现了无需训练的定位能力。然而，这些注意力图是为文本生成而非空间定位优化的，常导致模糊和歧义的定位信号。本文提出SteerSeg，一个轻量级框架，将注意力错位识别为基于注意力定位的关键瓶颈，并通过输入级条件引导注意力源头。SteerSeg结合了可学习的软提示与推理引导的链式思维（CoT）提示。软提示重塑注意力分布以生成更集中的空间图，而CoT衍生的属性通过引导注意力指向正确实例，解决相似对象间的歧义。所得注意力图跨关键帧转换为点提示，以引导分割模型，同时基于相关性评分对候选轨迹进行排序和选择。我们的方法冻结LVLM和分割模型参数，仅学习少量软提示，在显著改善定位的同时保留模型的预训练推理能力。尽管仅在Ref-YouTube-VOS上训练，SteerSeg在多个基准上表现良好，显著提升了LVLMs的空间定位能力。项目页面：https://steerseg.github.io

← Back