Scaling Video Pretraining for Surgical Foundation Models<br>扩展视频预训练以构建外科基础模型<br>[摘要](abstracts/2603.29966.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

外科视频理解对于计算机辅助干预至关重要，然而现有外科基础模型仍受限于数据规模小、手术程序多样性不足以及评估标准不一致等问题，且往往缺乏可复现的训练流程。为此，我们提出了SurgRec，一个可扩展且可复现的外科视频理解预训练方案，并实现了两个变体：SurgRec-MAE和SurgRec-JEPA。我们构建了一个大规模多源数据集，包含10,535个视频和2.145亿帧图像，涵盖内窥镜、腹腔镜、白内障和机器人手术。基于此数据集，我们开发了一个统一的预训练流程，采用平衡采样策略，并在16个下游数据集和四个临床领域上建立了标准化的可复现基准，确保数据划分的一致性。通过与自监督学习基线及视觉语言模型的广泛比较，SurgRec在下游数据集中始终表现出卓越性能。相比之下，视觉语言模型在细粒度时序识别任务中表现不稳定，不仅存在性能差距，还对提示词表述敏感。我们的工作为社区提供了一个可复现、可扩展的基础，以构建更通用的外科视频模型。所有代码、模型和数据将公开发布。

← Back