Abstract not available.
智能感知应用的扩展催生了在网络边缘准确理解人类动作的日益增长需求。传统方法需将大量视频数据从资源受限的边缘设备传输至强大的云服务器,这不仅导致高昂的上行带宽消耗和不可接受的延迟,还引发隐私问题。为克服这些瓶颈,我们提出了一种通过边缘-云协作实现人类动作理解的任务导向通信框架(TOAU)。该框架利用单目姿态估计器从原始视频中提取连续关节点坐标,随后通过矢量量化变分自编码器(VQ-VAE)将这些坐标转化为离散运动令牌。因此,网络中仅需传输紧凑的码本索引序列,每帧仅消耗9比特,同时避免隐私泄露。在云服务器端,轻量投影器将这些运动令牌对齐至大型视觉-语言模型(VLM)的嵌入空间,以支持复杂动作理解,并通过高效的指令调优范式进行训练。在三个基准上的全面评估表明,与基于视频编解码的解决方案相比,我们的TOAU系统将传输负载降低至约1%,系统延迟降低至约20%,同时保持可比较的动作理解准确率。