Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection<br>Ramen:通过主动样本选择实现视觉-语言模型的鲁棒测试时自适应<br>[摘要](abstracts/2604.21728.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

预训练的视觉-语言模型(如CLIP)展现出强大的零样本泛化能力,但对分布变化仍然敏感。测试时自适应方法在推理过程中无需访问源数据或目标标签即可调整模型,为处理此类变化提供了一种实用方案。然而,现有方法通常假设测试样本来自单一、一致的域,而实际测试数据往往包含来自不同混合域的样本,具有各自独特的特征。因此,这些方法在混合域场景下的性能会下降。为了解决这一问题,我们提出了Ramen,一个通过主动样本选择实现鲁棒测试时自适应的框架。对于每个输入的测试样本,Ramen基于两个标准从先前见过的数据中检索定制化的相关样本批次:域一致性,确保自适应聚焦于相似域的数据;以及预测平衡性,减轻因预测倾斜导致的自适应偏差。为提升效率,Ramen采用嵌入-梯度缓存,存储过去测试图像的嵌入和样本级梯度。存储的嵌入用于检索相关样本,相应的梯度则被聚合用于模型更新,从而无需额外的正向或反向传播。我们的理论分析揭示了所提出的自适应机制在混合域变化下有效的原因。在多个图像损坏和域偏移基准上的实验表明,Ramen实现了强大且一致的性能,在复杂的混合域场景中提供了鲁棒且高效的自适应。我们的代码可在https://github.com/baowenxuan/Ramen获取。

← Back