Are Multimodal Large Language Models Good Annotators for Image Tagging?<br>多模态大语言模型是图像标注的优秀注释者吗？<br>[摘要](abstracts/2602.20972.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

图像标注作为一项基础的视觉任务，传统上依赖人工标注的数据集来训练多标签分类器，这带来了巨大的人力与成本负担。尽管多模态大语言模型（MLLMs）展现出自动化标注的潜力，但其能否替代人工注释者仍待深入探究。本文旨在分析MLLM生成标注与人工标注之间的差距，并提出一种有效解决方案，使基于MLLM的标注能够取代手动标记。我们对MLLM标注的分析表明，在保守估计下，MLLM能将标注成本降至人工成本的千分之一，主要计算GPU使用成本，相比人工投入几乎可忽略不计。其标注质量达到人类表现的约50%至80%，而在下游训练任务中性能超过90%。基于这些发现，我们提出了TagLLM，一个新颖的图像标注框架，旨在缩小MLLM生成标注与人工标注之间的差距。TagLLM包含两个组件：候选标签生成，采用结构化分组提示来高效生成紧凑的候选集，尽可能覆盖更多真实标签，同时减少后续标注工作量；以及标签消歧，通过交互式校准提示中的类别语义概念，有效优化候选标签。大量实验表明，TagLLM显著缩小了MLLM生成标注与人工标注之间的差距，尤其在下游训练性能方面，弥补了约60%至80%的差异。

← Back