FineState-Bench: Benchmarking State-Conditioned Grounding for Fine-grained GUI State Setting<br>FineState-Bench: 面向细粒度GUI状态设定的状态条件定位基准<br>[摘要](abstracts/2604.27974.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大视觉语言模型取得了快速进展,但在细粒度的、状态条件的GUI交互中仍然面临挑战。当前的评估存在覆盖范围有限、目标状态定义不精确以及过度依赖最终任务成功等问题,掩盖了智能体失败的原因和位置。为弥补这一空白,我们提出了FineState-Bench,一个评估智能体能否正确将指令定位到目标UI控件并达到精确目标状态的基准。FineState-Bench包含覆盖桌面、网页和移动平台的2,209个实例,涵盖四种交互类型和23种UI组件类型,每个实例明确指定了精细状态设定的确切目标状态。我们进一步提出了FineState-Metrics,一个四阶段诊断流水线,包含阶段成功率:定位成功率、交互成功率、定位时的精确状态成功率以及交互时的精确状态成功率。同时,我们设计了一个即插即用的视觉诊断助手,通过受控的有/无对比实验,生成描述和边界框定位提示,以诊断视觉定位的推理机制。在FineState-Bench上,精确目标状态的成功率仍然较低:网页端交互时的精确状态成功率为32.8%,跨平台平均为22.8%。通过视觉诊断助手的定位提示,Gemini-2.5-Flash的交互时的精确状态成功率提升了14.9个百分点,表明改进视觉定位仍有很大空间,但整体精度仍不足以支持可靠的细粒度状态条件交互。详见Github。

← Back