Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification<br>跨模态原型对齐与混合：面向免训练小样本分类<br>[摘要](abstracts/2603.24528.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

如CLIP等视觉-语言模型（VLMs）的训练目标在于对齐文本与图像对。为提升基于CLIP的小样本图像分类性能，近期研究指出，除文本嵌入外，训练集中的图像嵌入亦是重要的信息来源。本文探究了直接混合图像与文本原型对小样本分类的影响，并从偏差-方差角度进行分析。我们证明混合原型类似于一种收缩估计器。尽管混合原型提升了分类性能，但图像原型仍会引入噪声，例如实例特定的背景或上下文信息。为仅捕获与给定分类任务相关的图像空间信息，我们提出将图像原型投影到语义文本嵌入空间的主方向上，以获得文本对齐的语义图像子空间。这些文本对齐的图像原型与文本嵌入混合后，能进一步改善分类效果。然而，对于CLIP中跨模态对齐较差的后续数据集，语义对齐可能并非最优。我们表明，通过使用类别协方差建模各向异性，图像子空间仍可被有效利用。实验证明，结合文本对齐的混合原型分类器与图像特定的LDA分类器，在多个小样本分类基准测试中优于现有方法。

← Back