FineState-Bench: Benchmarking State-Conditioned Grounding for Fine-grained GUI State Setting<br>FineState-Bench: 面向细粒度GUI状态设定的状态条件定位基准<br>[摘要](abstracts/2604.27974.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大视觉语言模型取得了快速进展，但在细粒度的、状态条件的GUI交互中仍然面临挑战。当前的评估存在覆盖范围有限、目标状态定义不精确以及过度依赖最终任务成功等问题，掩盖了智能体失败的原因和位置。为弥补这一空白，我们提出了FineState-Bench，一个评估智能体能否正确将指令定位到目标UI控件并达到精确目标状态的基准。FineState-Bench包含覆盖桌面、网页和移动平台的2,209个实例，涵盖四种交互类型和23种UI组件类型，每个实例明确指定了精细状态设定的确切目标状态。我们进一步提出了FineState-Metrics，一个四阶段诊断流水线，包含阶段成功率：定位成功率、交互成功率、定位时的精确状态成功率以及交互时的精确状态成功率。同时，我们设计了一个即插即用的视觉诊断助手，通过受控的有/无对比实验，生成描述和边界框定位提示，以诊断视觉定位的推理机制。在FineState-Bench上，精确目标状态的成功率仍然较低：网页端交互时的精确状态成功率为32.8%，跨平台平均为22.8%。通过视觉诊断助手的定位提示，Gemini-2.5-Flash的交互时的精确状态成功率提升了14.9个百分点，表明改进视觉定位仍有很大空间，但整体精度仍不足以支持可靠的细粒度状态条件交互。详见Github。

← Back