Abstract not available.
常开边缘摄像头持续生成视频流,其中冗余帧会挤占正确结果在top-k搜索中的位置,从而降低跨模态检索性能。本文提出一种流式检索架构:设备端epsilon-net过滤器仅保留语义新颖的帧,构建去噪嵌入索引;跨模态适配器和云端重排序器则补偿紧凑编码器在模态对齐上的不足。在两种第一人称视角数据集(AEA、EPIC-KITCHENS)上,针对八种视觉-语言模型(8M-632M参数规模),单次流式过滤器的表现均优于离线替代方案(k均值、最远点采样、均匀采样、随机采样)。该架构结合8M参数的设备端编码器,在预估功耗2.7 mW的条件下,于预留数据集上实现了45.6%的Hit@5检索准确率。