Prototype-Based Test-Time Adaptation of Vision-Language Models<br>基于原型的视觉语言模型测试时自适应方法<br>[摘要](abstracts/2604.21360.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

测试时自适应（TTA）已成为视觉语言模型（VLM）弥合预训练数据与测试数据分布差异的有效范式。现有研究聚焦于基于缓存的无反向传播TTA方法，但此类方法存在两大局限：首先，随着类别数量增加，缓存规模扩大会导致推理延迟上升，在大规模场景下效率低下；其次，当缓存包含不足或错误样本时，模型性能会显著下降。本文提出基于原型的测试时自适应方法（PTA），这是一种高效且有效的TTA范式，通过维护一组类别特定知识原型来累积测试样本知识。具体而言，知识原型根据每个测试样本的零样本类别置信度进行自适应加权，将样本视觉特征融合到对应类别的原型表示中。值得强调的是，过往测试样本的知识仅通过原型进行整合与利用，彻底消除了现有TTA方法中缓存填充与检索带来的计算开销。这使得PTA在保持极高效率的同时，在15个图像识别基准和4个鲁棒点云分析基准上均取得了最优性能。例如，在10个跨域基准测试中，PTA将CLIP的准确率从65.64%提升至69.38%，同时在大规模ImageNet-1K上保持了CLIP 92%的推理速度。相比之下，基于缓存的TDA方法仅达到67.97%的准确率，且推理速度仅为CLIP的50%。

← Back