Generalized Recognition of Basic Surgical Actions Enables Skill Assessment and Vision-Language-Model-based Surgical Planning<br>基础手术动作的泛化识别赋能技能评估与基于视觉语言模型的手术规划<br>[摘要](abstracts/2603.12787.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

人工智能、影像技术与大型语言模型具有变革外科实践、培训及自动化的潜力。基础手术动作（BSA）作为所有手术操作的基本单元，其理解与建模对于推动该领域发展至关重要。本文提出了一个包含6个外科专科、涵盖10类基础动作、超过11,000个视频片段的BSA数据集，其规模为当前之最。基于该数据集，我们开发了一种能够实现基础动作通用识别的新基础模型。实验表明，该方法在不同手术类型及身体部位的数据集上均展现出稳健的跨专科性能。进一步地，我们通过两个下游应用展示了BSA基础模型的赋能潜力：在前列腺切除术中结合领域知识进行手术技能评估，在胆囊切除术与肾切除术中利用大型视觉语言模型实现动作规划。多国外科医生对语言模型生成的动作规划可解释文本进行了评估，结果证实其具有临床相关性。这些发现表明，基础手术动作能够实现跨场景的稳健识别，而精确的BSA理解模型本质上可促进复杂应用的发展，并加速实现外科超级智能。

← Back