Abstract not available.
设备端视觉语言模型通过本地执行承诺了数据隐私保护。然而,我们发现,向动态高分辨率预处理(如AnyRes)的架构转变引入了一种固有的算法侧信道。与静态模型不同,动态预处理根据图像的长宽比将其分解为数量可变的图像块,从而创建依赖于工作负载的输入。我们展示了一种针对本地视觉语言模型的双层攻击框架。在第一层,未授权攻击者可以利用标准的无特权操作系统指标,通过显著的执行时间差异可靠地识别输入图像的几何特征。在第二层,通过分析末级缓存争用情况,攻击者能够解析相同几何形状内的语义模糊性,区分视觉密集(如医学X射线)与稀疏(如文本文档)内容。通过评估LLaVA-NeXT和Qwen2-VL等先进模型,我们证明结合这些信号能够可靠地推断隐私敏感场景。最后,我们分析了缓解此漏洞的安全工程权衡,揭示了恒定工作填充带来的显著性能开销,并为安全的边缘人工智能部署提出了实用的设计建议。