Abstract not available.
视频异常检测(VAD)旨在自动识别未修剪监控视频中偏离正常模式的事件。现有方法普遍依赖大规模标注或特定任务的训练流程,严重限制了其在新场景中的快速部署。我们观察到,预训练多模态大语言模型(MLLMs)的中间层特征已编码了丰富的异常语义,但现有方法依赖于语言输出路径,未能利用这些表示中潜在的几何判别性。基于这一发现,我们提出SphereVAD,一种完全无需训练、零样本的VAD框架,将异常判别重新定义为单位超球面上的von Mises-Fisher(vMF)似然比测地线推理,通过原理性几何推理而非学习新表示来释放潜在判别性。具体而言,SphereVAD首先应用弗雷歇均值中心化来展开特征分布并消除领域偏差,然后采用整体场景注意力(HSA)利用跨视频先验增强特征一致性,最后执行vMF引导的球面测地线牵引(SGP)将模糊片段与球面流形上的方向原型对齐。这种无需训练的流程仅需极少量合成图像进行校准。SphereVAD在三大主流基准数据集上建立了无训练方法的最新水平,并与全监督基线保持竞争力。代码将在论文接收后公开。