Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?<br>检索与分割：少量示例足以弥合开放词汇分割中的监督鸿沟吗？<br>[摘要](abstracts/2602.23339.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

开放词汇分割（OVS）将视觉-语言模型（VLM）的零样本识别能力扩展至像素级预测，实现了基于文本提示的任意类别分割。尽管近期有所进展，但由于两大挑战——用于训练VLM的粗粒度图像级监督和自然语言的语义模糊性，OVS仍落后于全监督方法。我们通过引入一种少样本设置来解决这些限制，该设置通过像素标注图像的支持集来增强文本提示。在此基础上，我们提出了一种检索增强的测试时适配器，通过融合文本和视觉支持特征来学习轻量级的每图像分类器。与先前依赖后期手工融合的方法不同，我们的方法执行基于学习的每查询融合，实现了模态间更强的协同作用。该方法支持持续扩展的支持集，并适用于细粒度任务，如个性化分割。实验表明，我们在保持开放词汇能力的同时，显著缩小了零样本与监督分割之间的差距。

← Back