Abstract not available.
开放词汇目标检测旨在识别开放类别集合中的物体,利用大规模图像-文本数据预训练的视觉-语言模型(VLM)。协作范式将目标检测器与VLM结合,实现对未知物体的零样本识别。然而,在全图像上预训练的VLM往往难以捕捉局部物体细节,限制了其在区域级检测中的有效性。我们提出了解耦适应性训练(DAT),一种自监督微调方法,用于改进协作模型中的VLM。给定由闭集检测器和VLM组成的协作模型,我们首先利用预训练的闭集目标检测器构建一个区域感知的伪标签数据集,其中对应未知物体的区域可能存在但未被标记或标记错误。随后,我们以解耦方式微调VLM的视觉骨干网络,通过权重插值在增强局部特征对齐的同时保留全局语义知识。DAT即插即用,无需额外推理开销,且仅微调少于0.8M参数。在COCO和LVIS数据集上的实验表明,DAT在未知类别和已知类别上均持续提升检测性能,在协作式开放词汇检测任务中达到了新的最优水平。