Scaling Video Pretraining for Surgical Foundation Models<br>扩展视频预训练以构建外科基础模型<br>[摘要](abstracts/2603.29966.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

外科视频理解对于计算机辅助干预至关重要,然而现有外科基础模型仍受限于数据规模小、手术程序多样性不足以及评估标准不一致等问题,且往往缺乏可复现的训练流程。为此,我们提出了SurgRec,一个可扩展且可复现的外科视频理解预训练方案,并实现了两个变体:SurgRec-MAE和SurgRec-JEPA。我们构建了一个大规模多源数据集,包含10,535个视频和2.145亿帧图像,涵盖内窥镜、腹腔镜、白内障和机器人手术。基于此数据集,我们开发了一个统一的预训练流程,采用平衡采样策略,并在16个下游数据集和四个临床领域上建立了标准化的可复现基准,确保数据划分的一致性。通过与自监督学习基线及视觉语言模型的广泛比较,SurgRec在下游数据集中始终表现出卓越性能。相比之下,视觉语言模型在细粒度时序识别任务中表现不稳定,不仅存在性能差距,还对提示词表述敏感。我们的工作为社区提供了一个可复现、可扩展的基础,以构建更通用的外科视频模型。所有代码、模型和数据将公开发布。

← Back