Prototype-Based Test-Time Adaptation of Vision-Language Models<br>基于原型的视觉语言模型测试时自适应方法<br>[摘要](abstracts/2604.21360.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

测试时自适应(TTA)已成为视觉语言模型(VLM)弥合预训练数据与测试数据分布差异的有效范式。现有研究聚焦于基于缓存的无反向传播TTA方法,但此类方法存在两大局限:首先,随着类别数量增加,缓存规模扩大会导致推理延迟上升,在大规模场景下效率低下;其次,当缓存包含不足或错误样本时,模型性能会显著下降。本文提出基于原型的测试时自适应方法(PTA),这是一种高效且有效的TTA范式,通过维护一组类别特定知识原型来累积测试样本知识。具体而言,知识原型根据每个测试样本的零样本类别置信度进行自适应加权,将样本视觉特征融合到对应类别的原型表示中。值得强调的是,过往测试样本的知识仅通过原型进行整合与利用,彻底消除了现有TTA方法中缓存填充与检索带来的计算开销。这使得PTA在保持极高效率的同时,在15个图像识别基准和4个鲁棒点云分析基准上均取得了最优性能。例如,在10个跨域基准测试中,PTA将CLIP的准确率从65.64%提升至69.38%,同时在大规模ImageNet-1K上保持了CLIP 92%的推理速度。相比之下,基于缓存的TDA方法仅达到67.97%的准确率,且推理速度仅为CLIP的50%。

← Back