Large Multimodal Models as General In-Context Classifiers<br>大型多模态模型作为通用上下文内分类器<br>[摘要](abstracts/2602.23229.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们应选择哪种多模态模型进行分类？先前的研究表明，答案在于CLIP类对比视觉语言模型（VLMs），因其在零样本分类中表现卓越。相比之下，大型多模态模型（LMMs）更适用于复杂任务。本文认为，这一答案忽略了LMMs的一项重要能力：上下文学习。我们在多样化数据集上对最先进的LMMs进行闭域分类基准测试，发现尽管其零样本性能低于CLIP，但配备少量上下文示例的LMMs能够匹配甚至超越带有缓存适配器的对比VLMs（即其“上下文内”等效模型）。我们将此分析扩展至开放世界场景，其中LMMs的生成特性使其更适应该任务。在这一挑战性情境下，当提供不完善的上下文信息时，LMMs表现受限。为解决此问题，我们提出CIRCLE——一种简单的无需训练的方法，为上下文示例分配伪标签，并利用可用上下文自身进行迭代优化。通过大量实验，我们证明CIRCLE为开放世界分类建立了稳健的基准，超越了VLM同类模型，并突显了LMMs作为统一分类器的潜力，成为专用模型的灵活替代方案。

← Back