Abstract not available.
图像标注作为一项基础的视觉任务,传统上依赖人工标注的数据集来训练多标签分类器,这带来了巨大的人力与成本负担。尽管多模态大语言模型(MLLMs)展现出自动化标注的潜力,但其能否替代人工注释者仍待深入探究。本文旨在分析MLLM生成标注与人工标注之间的差距,并提出一种有效解决方案,使基于MLLM的标注能够取代手动标记。我们对MLLM标注的分析表明,在保守估计下,MLLM能将标注成本降至人工成本的千分之一,主要计算GPU使用成本,相比人工投入几乎可忽略不计。其标注质量达到人类表现的约50%至80%,而在下游训练任务中性能超过90%。基于这些发现,我们提出了TagLLM,一个新颖的图像标注框架,旨在缩小MLLM生成标注与人工标注之间的差距。TagLLM包含两个组件:候选标签生成,采用结构化分组提示来高效生成紧凑的候选集,尽可能覆盖更多真实标签,同时减少后续标注工作量;以及标签消歧,通过交互式校准提示中的类别语义概念,有效优化候选标签。大量实验表明,TagLLM显著缩小了MLLM生成标注与人工标注之间的差距,尤其在下游训练性能方面,弥补了约60%至80%的差异。