Abstract not available.
计算机使用代理(CUAs)通过依赖视觉语言模型(VLM)来解读屏幕截图并预测基础工具调用,从而将自然语言指令转换为图形用户界面(GUI)操作,如点击、按键和滚动。然而,不同VLM的基础准确性差异显著,而当前的CUA系统通常将所有操作路由至单一固定模型,无论操作难度如何。我们提出了\textbf{自适应VLM路由}(AVR)框架,该框架在CUA协调器与VLM池之间插入一个轻量级语义路由层。对于每个工具调用,AVR从多模态嵌入中估计操作难度,探测小型VLM以测量置信度,并将操作路由至预测准确性满足目标可靠性阈值的最经济模型。对于具有先前用户界面交互记忆的\textit{热启动}代理,检索到的上下文进一步缩小了小型与大型模型之间的能力差距,使得许多操作无需升级即可处理。我们将路由形式化为成本与准确性的权衡,推导出基于阈值的模型选择策略,并使用ScreenSpot-Pro基础数据及OpenClaw代理路由基准对AVR进行评估。在这些设置中,AVR预计可将推理成本降低高达78%,同时保持在全部使用大型模型基线的2个百分点误差范围内。当与视觉混淆代理防护栏结合时,AVR还将高风险操作直接升级至最强可用模型,在单一路由框架内统一了效率与安全性。相关材料(模型、基准和代码)已提供:https://github.com/vllm-project/semantic-router。