Abstract not available.
视觉-语言模型(VLMs)是强大的开放集推理器,但直接将其用作视频监控中的异常检测器存在脆弱性:未经校准的异常先验会导致漏检与虚假警报交替出现。我们认为问题并非出在VLM本身,而在于其使用方式。VLM应作为异常提议生成器,产生开放集的候选描述,随后由专门构建的空间与时间模块进行定位与追踪。我们在GridVAD中实例化了这一“提议-定位-传播”原则,该训练无关的流程无需任何领域特定训练即可生成像素级异常掩码。VLM通过对视频片段的分层网格表示进行推理,生成自然语言异常提议。自一致性整合(SCC)通过仅保留在多次独立采样中重复出现的提议来过滤幻觉。Grounding DINO将每个存活的提议锚定为边界框,SAM2则将其作为密集掩码在异常区间内传播。无论视频长度如何,每个片段的VLM调用预算固定为M+1次,其中M可根据所需提议数量设定。在UCSD Ped2数据集上,GridVAD在所有对比方法中取得了最高的像素级AUROC(77.59),甚至超越了部分微调的TAO(75.11),并在物体级RBDC上以超过5倍的优势优于其他零样本方法。消融实验表明,SCC提供了可控的精确率-召回率权衡:过滤操作以物体级召回率的适度代价提升了所有像素级指标。效率实验显示,GridVAD比均匀每帧VLM查询的调用效率高2.7倍,同时还能生成密集分割掩码。代码与定性视频结果可在https://gridvad.github.io获取。