EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos<br>EC-Bench:超长视频的枚举与计数基准测试<br>[摘要](abstracts/2603.29943.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

长视频中的计数问题仍然是计算机视觉领域一个基础但尚未充分探索的挑战。现实世界的录像通常持续数十分钟或更长,包含稀疏且多样的事件,这使得长程时序推理尤为困难。然而,现有的大多数视频计数基准测试主要关注短视频片段,并且仅评估最终的数值答案,未能深入揭示应该计数什么内容,或者模型是否能在整个时间范围内一致地识别相关实例。我们引入了EC-Bench,这是一个在长视频中联合评估枚举、计数和时序证据定位的基准测试。EC-Bench包含152个时长超过30分钟的视频和1,699个配有明确证据时间段的查询。在22个多模态大语言模型(MLLMs)中,最佳模型在枚举任务上仅达到29.98%的准确率,在计数任务上为23.74%,而人类的表现分别为78.57%和82.97%。我们的分析揭示了枚举准确率、时序定位和计数性能之间的强相关性。这些结果凸显了当前MLLMs的根本局限性,并将EC-Bench确立为长视频定量推理领域的一个具有挑战性的基准测试。

← Back