LATERN: Test-Time Context-Aware Explainable Video Anomaly Detection<br>LATERN:测试时上下文感知的可解释视频异常检测<br>[摘要](abstracts/2605.15054.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型(VLMs)因其强大的视觉推理能力和基于自然语言的可解释性,近期已成为视频异常检测(VAD)的一种有前景的范式。本文旨在解决此类方法的一个关键局限:由于token约束,模型以片段为单位独立进行推理,且缺乏结构化的时序上下文,导致无法将异常解释为与动态视频演变的偏差,而是产生碎片化的预测和解释。具体而言,我们提出了一种名为LATERN的上下文感知框架,它将VAD重新表述为时序证据聚合过程。LATERN由两个互补模块组成:上下文感知异常评分(CEA)和递归证据聚合(REA)。CEA引入了一种新颖的图像锚定记忆机制,通过帧多样性和视觉-文本对齐选择性选取历史内容作为扩展上下文,以帮助生成可靠的异常分数。基于这些分数,REA执行递归时序聚合,以识别连贯的异常区间,并生成基于视觉-文本证据的事件级决策和解释。在包括UCF-Crime和XD-Violence在内的具有挑战性的基准测试上的大量实验表明,LATERN在测试时增强了冻结VLMs的检测准确性和解释一致性,同时生成了时序连贯且语义基础的事件级解释。

← Back