VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition<br>VideoNet：面向领域特定动作识别的大规模数据集<br>[摘要](abstracts/2605.02834.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频在捕捉跨越多个帧的动作方面具有独特优势。因此，多年来动作识别一直是视频理解的核心任务。然而，由于缺乏足够多样且具有挑战性的数据，现代视觉语言模型（VLM）已不再基于其动作识别能力进行评估。为了在VLM时代重振动作识别，我们倡导回归对领域特定动作的关注。为此，我们引入了VideoNet，这是一个涵盖37个领域1000种不同动作的领域特定动作识别基准。我们首先采用多项选择评估设置，其中闭源与开源模型之间的差异显著：Gemini 3.1 Pro达到69.9%的准确率，而Qwen3-VL-8B仅获得45.0%。为了理解VLM在VideoNet上表现不佳的原因，我们将问题简化为二元设置（随机猜测概率为50%），但Qwen的准确率仍仅为59.2%。进一步放宽评估设置，我们提供k∈{1,2,3}个上下文中的动作示例。一些模型在少样本设置中表现出色，而另一些则表现不佳；Qwen提升+7.0%，而Gemini下降-4.8%。值得注意的是，这些提升幅度低于非专业人类在获得少样本示例时+13.6%的提升。发现VLM难以充分利用上下文示例后，我们将重心从测试时改进转向训练阶段。我们收集了首个大规模领域特定动作训练数据集，总计近50万个视频问答对。基于我们的数据微调Molmo2-4B模型后，其在VideoNet基准上超越了所有开放权重的8B模型。

← Back