VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition<br>VideoNet:面向领域特定动作识别的大规模数据集<br>[摘要](abstracts/2605.02834.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频在捕捉跨越多个帧的动作方面具有独特优势。因此,多年来动作识别一直是视频理解的核心任务。然而,由于缺乏足够多样且具有挑战性的数据,现代视觉语言模型(VLM)已不再基于其动作识别能力进行评估。为了在VLM时代重振动作识别,我们倡导回归对领域特定动作的关注。为此,我们引入了VideoNet,这是一个涵盖37个领域1000种不同动作的领域特定动作识别基准。我们首先采用多项选择评估设置,其中闭源与开源模型之间的差异显著:Gemini 3.1 Pro达到69.9%的准确率,而Qwen3-VL-8B仅获得45.0%。为了理解VLM在VideoNet上表现不佳的原因,我们将问题简化为二元设置(随机猜测概率为50%),但Qwen的准确率仍仅为59.2%。进一步放宽评估设置,我们提供k∈{1,2,3}个上下文中的动作示例。一些模型在少样本设置中表现出色,而另一些则表现不佳;Qwen提升+7.0%,而Gemini下降-4.8%。值得注意的是,这些提升幅度低于非专业人类在获得少样本示例时+13.6%的提升。发现VLM难以充分利用上下文示例后,我们将重心从测试时改进转向训练阶段。我们收集了首个大规模领域特定动作训练数据集,总计近50万个视频问答对。基于我们的数据微调Molmo2-4B模型后,其在VideoNet基准上超越了所有开放权重的8B模型。

← Back