Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models<br>形态与实质：针对本地视觉语言模型的双层侧信道攻击<br>[摘要](abstracts/2603.25403.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

设备端视觉语言模型通过本地执行承诺了数据隐私保护。然而，我们发现，向动态高分辨率预处理（如AnyRes）的架构转变引入了一种固有的算法侧信道。与静态模型不同，动态预处理根据图像的长宽比将其分解为数量可变的图像块，从而创建依赖于工作负载的输入。我们展示了一种针对本地视觉语言模型的双层攻击框架。在第一层，未授权攻击者可以利用标准的无特权操作系统指标，通过显著的执行时间差异可靠地识别输入图像的几何特征。在第二层，通过分析末级缓存争用情况，攻击者能够解析相同几何形状内的语义模糊性，区分视觉密集（如医学X射线）与稀疏（如文本文档）内容。通过评估LLaVA-NeXT和Qwen2-VL等先进模型，我们证明结合这些信号能够可靠地推断隐私敏感场景。最后，我们分析了缓解此漏洞的安全工程权衡，揭示了恒定工作填充带来的显著性能开销，并为安全的边缘人工智能部署提出了实用的设计建议。

← Back