Abstract not available.
如CLIP等视觉-语言模型(VLMs)的训练目标在于对齐文本与图像对。为提升基于CLIP的小样本图像分类性能,近期研究指出,除文本嵌入外,训练集中的图像嵌入亦是重要的信息来源。本文探究了直接混合图像与文本原型对小样本分类的影响,并从偏差-方差角度进行分析。我们证明混合原型类似于一种收缩估计器。尽管混合原型提升了分类性能,但图像原型仍会引入噪声,例如实例特定的背景或上下文信息。为仅捕获与给定分类任务相关的图像空间信息,我们提出将图像原型投影到语义文本嵌入空间的主方向上,以获得文本对齐的语义图像子空间。这些文本对齐的图像原型与文本嵌入混合后,能进一步改善分类效果。然而,对于CLIP中跨模态对齐较差的后续数据集,语义对齐可能并非最优。我们表明,通过使用类别协方差建模各向异性,图像子空间仍可被有效利用。实验证明,结合文本对齐的混合原型分类器与图像特定的LDA分类器,在多个小样本分类基准测试中优于现有方法。