SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning<br>SUREON：一个用于外科推理的基准与视觉语言模型<br>[摘要](abstracts/2603.06570.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

外科医生不仅观察——他们更进行解读。当专家审视手术场景时，他们不仅理解正在使用何种器械，还明白为何选择该器械、它带来何种风险以及后续步骤是什么。当前的外科人工智能无法回答此类问题，主要因为明确编码外科推理的训练数据极难大规模标注。然而，外科教学视频讲座恰恰包含了这些内容——专家为教学目的而讲解的意图、原理和预期说明。尽管这些叙述本质上存在噪声且非结构化，但它们编码了当前外科人工智能所缺乏的推理能力。我们推出了SUREON，这是一个大规模视频问答数据集，系统地从外科学术视频中提取这种训练信号。SUREON定义了12个问题类别，涵盖安全性评估、决策依据和预测，并采用多智能体流程大规模提取和结构化监督信息。基于134.7K个视频片段和170种手术类型，SUREON生成了206.8K个问答对，以及一个包含354个示例的专家验证基准。为评估这种监督在多大程度上转化为外科推理能力，我们引入了两个模型：SureonVLM（通过监督微调适配的视觉语言模型）和SureonVLM-R1（使用群体相对策略优化训练得到的推理模型）。这两个模型均能回答关于手术的复杂问题，并显著优于更大的通用领域模型，在SUREON基准上准确率超过84%，同时在标准外科感知任务上也优于通用领域模型。对SureonVLM-R1的定性分析揭示了其明确的推理行为，例如从视觉上下文中推断手术意图。

← Back