When Does Multimodal AI Help? Diagnostic Complementarity of Vision-Language Models and CNNs for Spectrum Management in Satellite-Terrestrial Networks<br>多模态AI何时发挥作用？视觉语言模型与卷积神经网络在星地网络频谱管理中的诊断互补性<br>[摘要](abstracts/2604.03774.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLM）在无线网络管理中的应用正加速推进，但对于这些大型基础模型在频谱相关任务中何处优于轻量级卷积神经网络（CNN），目前尚缺乏系统性理解。本文首次针对非地面网络与地面网络（NTN-TN）协作系统中的频谱热图理解任务，对VLM与CNN进行了诊断性比较。我们提出了SpectrumQA基准数据集，包含跨越四个粒度层次的10.8万个视觉问答对：场景分类（L1）、区域推理（L2）、空间定位（L3）和语义推理（L4）。通过在三种NTN-TN场景下使用冻结参数的Qwen2-VL-7B模型和训练后的ResNet-18模型进行实验，我们发现了清晰的任务依赖性互补规律：CNN在严重程度分类（L1）任务中达到72.9%准确率，在空间定位（L3）任务中达到0.552交并比；而VLM仅需三个上下文示例即可实现语义推理（L4）任务（F1=0.576）——这种能力在CNN架构中根本不存在。思维链（CoT）提示策略将VLM推理性能提升12.6%（F1：0.209→0.233），但对空间任务毫无影响，这证实了互补性源于架构差异而非提示策略限制。采用确定性任务路由机制（监督任务分配至CNN、推理任务分配至VLM）可获得0.616的综合评分，较单独使用CNN提升39.1%。我们进一步发现VLM表征具有更强的跨场景鲁棒性，在6个迁移方向中有5个方向性能下降更小。这些发现提供了可操作的指导原则：应部署CNN处理空间定位任务，而将VLM用于语义频谱推理，而非将二者视为相互替代的方案。

← Back