LATERN: Test-Time Context-Aware Explainable Video Anomaly Detection<br>LATERN：测试时上下文感知的可解释视频异常检测<br>[摘要](abstracts/2605.15054.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型（VLMs）因其强大的视觉推理能力和基于自然语言的可解释性，近期已成为视频异常检测（VAD）的一种有前景的范式。本文旨在解决此类方法的一个关键局限：由于token约束，模型以片段为单位独立进行推理，且缺乏结构化的时序上下文，导致无法将异常解释为与动态视频演变的偏差，而是产生碎片化的预测和解释。具体而言，我们提出了一种名为LATERN的上下文感知框架，它将VAD重新表述为时序证据聚合过程。LATERN由两个互补模块组成：上下文感知异常评分（CEA）和递归证据聚合（REA）。CEA引入了一种新颖的图像锚定记忆机制，通过帧多样性和视觉-文本对齐选择性选取历史内容作为扩展上下文，以帮助生成可靠的异常分数。基于这些分数，REA执行递归时序聚合，以识别连贯的异常区间，并生成基于视觉-文本证据的事件级决策和解释。在包括UCF-Crime和XD-Violence在内的具有挑战性的基准测试上的大量实验表明，LATERN在测试时增强了冻结VLMs的检测准确性和解释一致性，同时生成了时序连贯且语义基础的事件级解释。

← Back