GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids<br>GridVAD：基于分层帧网格空间推理的开放集视频异常检测<br>[摘要](abstracts/2603.25467.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型（VLMs）是强大的开放集推理器，但直接将其用作视频监控中的异常检测器存在脆弱性：未经校准的异常先验会导致漏检与虚假警报交替出现。我们认为问题并非出在VLM本身，而在于其使用方式。VLM应作为异常提议生成器，产生开放集的候选描述，随后由专门构建的空间与时间模块进行定位与追踪。我们在GridVAD中实例化了这一“提议-定位-传播”原则，该训练无关的流程无需任何领域特定训练即可生成像素级异常掩码。VLM通过对视频片段的分层网格表示进行推理，生成自然语言异常提议。自一致性整合（SCC）通过仅保留在多次独立采样中重复出现的提议来过滤幻觉。Grounding DINO将每个存活的提议锚定为边界框，SAM2则将其作为密集掩码在异常区间内传播。无论视频长度如何，每个片段的VLM调用预算固定为M+1次，其中M可根据所需提议数量设定。在UCSD Ped2数据集上，GridVAD在所有对比方法中取得了最高的像素级AUROC（77.59），甚至超越了部分微调的TAO（75.11），并在物体级RBDC上以超过5倍的优势优于其他零样本方法。消融实验表明，SCC提供了可控的精确率-召回率权衡：过滤操作以物体级召回率的适度代价提升了所有像素级指标。效率实验显示，GridVAD比均匀每帧VLM查询的调用效率高2.7倍，同时还能生成密集分割掩码。代码与定性视频结果可在https://gridvad.github.io获取。

← Back