Abstract not available.
外科医生不仅观察——他们更进行解读。当专家审视手术场景时,他们不仅理解正在使用何种器械,还明白为何选择该器械、它带来何种风险以及后续步骤是什么。当前的外科人工智能无法回答此类问题,主要因为明确编码外科推理的训练数据极难大规模标注。然而,外科教学视频讲座恰恰包含了这些内容——专家为教学目的而讲解的意图、原理和预期说明。尽管这些叙述本质上存在噪声且非结构化,但它们编码了当前外科人工智能所缺乏的推理能力。我们推出了SUREON,这是一个大规模视频问答数据集,系统地从外科学术视频中提取这种训练信号。SUREON定义了12个问题类别,涵盖安全性评估、决策依据和预测,并采用多智能体流程大规模提取和结构化监督信息。基于134.7K个视频片段和170种手术类型,SUREON生成了206.8K个问答对,以及一个包含354个示例的专家验证基准。为评估这种监督在多大程度上转化为外科推理能力,我们引入了两个模型:SureonVLM(通过监督微调适配的视觉语言模型)和SureonVLM-R1(使用群体相对策略优化训练得到的推理模型)。这两个模型均能回答关于手术的复杂问题,并显著优于更大的通用领域模型,在SUREON基准上准确率超过84%,同时在标准外科感知任务上也优于通用领域模型。对SureonVLM-R1的定性分析揭示了其明确的推理行为,例如从视觉上下文中推断手术意图。