Multimodal Large Language Models as Image Classifiers<br>多模态大语言模型作为图像分类器<br>[摘要](abstracts/2603.06578.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLM）的分类性能关键取决于评估协议与真实标注质量。现有研究在比较MLLM与监督学习及视觉语言模型时得出矛盾结论，我们发现这些矛盾源于评估协议对性能的高估或低估。针对最常见的评估协议，我们识别并修正了关键问题：模型输出超出给定类别列表而被丢弃、弱干扰项导致的多选结果虚高，以及仅因输出映射不佳而表现欠佳的开放世界设定。此外，我们量化了常被忽视的设计选择（如批大小、图像顺序和文本编码器选择）的影响，证明它们显著影响准确率。在ReGT（我们对ImageNet-1k中625个类别的多标签重标注数据集）上的评估表明，MLLM从修正标注中获益最大（最高提升+10.8%），大幅缩小了与监督模型间的感知差距。因此，MLLM在分类任务中表现不佳的报道，很大程度上是噪声标注和有缺陷评估协议造成的人为假象，而非模型本身不足。对监督训练信号依赖较少的模型对标注质量最为敏感。最后，我们证明MLLM可辅助人工标注：在一项受控案例研究中，标注者在约50%的困难案例中确认或整合了MLLM的预测，展现了其在大规模数据集构建中的潜力。

← Back