Adaptive Vision-Language Model Routing for Computer Use Agents<br>自适应视觉语言模型路由技术用于计算机使用代理<br>[摘要](abstracts/2603.12823.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

计算机使用代理（CUAs）通过依赖视觉语言模型（VLM）来解读屏幕截图并预测基础工具调用，从而将自然语言指令转换为图形用户界面（GUI）操作，如点击、按键和滚动。然而，不同VLM的基础准确性差异显著，而当前的CUA系统通常将所有操作路由至单一固定模型，无论操作难度如何。我们提出了\textbf{自适应VLM路由}（AVR）框架，该框架在CUA协调器与VLM池之间插入一个轻量级语义路由层。对于每个工具调用，AVR从多模态嵌入中估计操作难度，探测小型VLM以测量置信度，并将操作路由至预测准确性满足目标可靠性阈值的最经济模型。对于具有先前用户界面交互记忆的\textit{热启动}代理，检索到的上下文进一步缩小了小型与大型模型之间的能力差距，使得许多操作无需升级即可处理。我们将路由形式化为成本与准确性的权衡，推导出基于阈值的模型选择策略，并使用ScreenSpot-Pro基础数据及OpenClaw代理路由基准对AVR进行评估。在这些设置中，AVR预计可将推理成本降低高达78%，同时保持在全部使用大型模型基线的2个百分点误差范围内。当与视觉混淆代理防护栏结合时，AVR还将高风险操作直接升级至最强可用模型，在单一路由框架内统一了效率与安全性。相关材料（模型、基准和代码）已提供：https://github.com/vllm-project/semantic-router。

← Back