Abstract not available.
通过结肠镜进行早期筛查对预防结肠癌至关重要,然而,该领域缺乏密集标注的长序列视频数据集,阻碍了稳健人工智能系统的开发。现有数据集主要聚焦于单类息肉检测,缺乏评估现代多模态大语言模型(MLLMs)所需的丰富空间、时间和语言标注。为填补这一关键空白,我们引入了Colon-Bench,它通过一种新颖的多阶段智能体工作流生成。我们的流程无缝整合了时间提案、边界框跟踪、AI驱动的视觉确认以及人在环审查,以可扩展地标注全流程视频。由此产生的已验证基准在范围上前所未有,涵盖528个视频、14种不同的病灶类别(包括息肉、溃疡和出血)、超过30万个边界框、21.3万个分割掩码以及13.3万字的临床描述。我们利用Colon-Bench对最先进的MLLMs在病灶分类、开放词汇视频对象分割(OV-VOS)和视频视觉问答(VQA)方面进行了严格评估。MLLM的结果显示,与SAM-3相比,其在医学领域的定位性能出人意料地高。最后,我们分析了MLLMs在VQA中的常见错误,引入了一种新颖的“结肠技能”提示策略,将大多数MLLM的零样本性能提升了高达9.7%。数据集和代码可在https://abdullahamdi.com/colon-bench获取。