Large Multimodal Models as General In-Context Classifiers<br>大型多模态模型作为通用上下文内分类器<br>[摘要](abstracts/2602.23229.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们应选择哪种多模态模型进行分类?先前的研究表明,答案在于CLIP类对比视觉语言模型(VLMs),因其在零样本分类中表现卓越。相比之下,大型多模态模型(LMMs)更适用于复杂任务。本文认为,这一答案忽略了LMMs的一项重要能力:上下文学习。我们在多样化数据集上对最先进的LMMs进行闭域分类基准测试,发现尽管其零样本性能低于CLIP,但配备少量上下文示例的LMMs能够匹配甚至超越带有缓存适配器的对比VLMs(即其“上下文内”等效模型)。我们将此分析扩展至开放世界场景,其中LMMs的生成特性使其更适应该任务。在这一挑战性情境下,当提供不完善的上下文信息时,LMMs表现受限。为解决此问题,我们提出CIRCLE——一种简单的无需训练的方法,为上下文示例分配伪标签,并利用可用上下文自身进行迭代优化。通过大量实验,我们证明CIRCLE为开放世界分类建立了稳健的基准,超越了VLM同类模型,并突显了LMMs作为统一分类器的潜力,成为专用模型的灵活替代方案。

← Back