Abstract not available.
视频异常检测(VAD)是计算机视觉中的一个基础性挑战,尤其因其异常的开集特性而复杂。尽管近期利用视觉语言模型(VLMs)的免训练方法展现出潜力,但它们通常依赖庞大且资源密集的基础模型来弥补静态提示的模糊性。我们认为,VAD的瓶颈未必在于模型容量,而在于查询的静态性质。我们提出了QVAD,一种以问题为中心的代理框架,将VLM与LLM的交互视为动态对话。通过基于视觉上下文迭代优化查询,我们的LLM代理引导较小的VLMs生成高保真描述和精确的语义推理,无需参数更新。这种“提示更新”机制有效释放了轻量级模型的潜在能力,在UCF-Crime、XD-Violence和UBNormal数据集上实现了最先进的性能,且所需参数量仅为竞争方法的一小部分。我们进一步在单场景ComplexVAD数据集上展示了卓越的泛化能力。至关重要的是,QVAD以最小的内存占用实现了高推理速度,使得先进的VAD能力能够部署在资源受限的边缘设备上。