Abstract not available.
公共交通枢纽、城市中心及活动场所等公共空间需要及时可靠地检测潜在暴力行为,以保障公共安全。尽管自动化视频分析已取得显著进展,但在实际部署中仍受延迟、隐私和资源限制的制约,尤其是在边缘计算环境下。本文提出了一种混合边缘动作检测系统的设计与基于演示的部署方案,该系统结合了基于骨架的运动分析与视觉-语言模型进行语义场景理解。骨架处理实现了连续、注重隐私且计算开销低的监控,而视觉-语言模型则为复杂及先前未见的情况提供了上下文理解和零样本推理能力。本文的贡献并非提出新的识别模型,而是聚焦于在现实边缘约束下对两种范式进行系统级比较。该系统在支持GPU的边缘设备上实现,并通过演示设置评估了延迟、资源使用和操作权衡。结果突显了以运动为中心和以语义为中心方法的互补优势与局限,并推动了一种混合架构,该架构选择性地利用更高层次的语义推理增强快速的骨架检测。所提出的系统为公共安全应用中注重隐私的实时视频分析提供了实用基础。