Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?<br>检索与分割:少量示例足以弥合开放词汇分割中的监督鸿沟吗?<br>[摘要](abstracts/2602.23339.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

开放词汇分割(OVS)将视觉-语言模型(VLM)的零样本识别能力扩展至像素级预测,实现了基于文本提示的任意类别分割。尽管近期有所进展,但由于两大挑战——用于训练VLM的粗粒度图像级监督和自然语言的语义模糊性,OVS仍落后于全监督方法。我们通过引入一种少样本设置来解决这些限制,该设置通过像素标注图像的支持集来增强文本提示。在此基础上,我们提出了一种检索增强的测试时适配器,通过融合文本和视觉支持特征来学习轻量级的每图像分类器。与先前依赖后期手工融合的方法不同,我们的方法执行基于学习的每查询融合,实现了模态间更强的协同作用。该方法支持持续扩展的支持集,并适用于细粒度任务,如个性化分割。实验表明,我们在保持开放词汇能力的同时,显著缩小了零样本与监督分割之间的差距。

← Back