Abstract not available.
多模态大语言模型(MLLM)的分类性能关键取决于评估协议与真实标注质量。现有研究在比较MLLM与监督学习及视觉语言模型时得出矛盾结论,我们发现这些矛盾源于评估协议对性能的高估或低估。针对最常见的评估协议,我们识别并修正了关键问题:模型输出超出给定类别列表而被丢弃、弱干扰项导致的多选结果虚高,以及仅因输出映射不佳而表现欠佳的开放世界设定。此外,我们量化了常被忽视的设计选择(如批大小、图像顺序和文本编码器选择)的影响,证明它们显著影响准确率。在ReGT(我们对ImageNet-1k中625个类别的多标签重标注数据集)上的评估表明,MLLM从修正标注中获益最大(最高提升+10.8%),大幅缩小了与监督模型间的感知差距。因此,MLLM在分类任务中表现不佳的报道,很大程度上是噪声标注和有缺陷评估协议造成的人为假象,而非模型本身不足。对监督训练信号依赖较少的模型对标注质量最为敏感。最后,我们证明MLLM可辅助人工标注:在一项受控案例研究中,标注者在约50%的困难案例中确认或整合了MLLM的预测,展现了其在大规模数据集构建中的潜力。