Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts<br>Avenir-Web:基于混合定位专家的人类经验模仿式多模态网络代理<br>[摘要](abstracts/2602.02468.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管多模态大语言模型取得了进展,但自主网络代理在执行复杂动态网页界面的长时程任务时仍难以保证可靠性。现有代理常面临元素定位不准确、缺乏站点特定程序性知识,以及长期任务跟踪与记忆不稳定等问题,尤其在处理复杂的文档对象模型结构时更为突出。为应对这些局限,我们提出了Avenir-Web,一种在网络代理中实现开源新标杆的代理,在真实世界部署的Online-Mind2Web基准测试中表现卓越。Avenir-Web采用混合定位专家机制,通过经验模仿规划融入程序性先验知识,并结合任务跟踪清单与自适应记忆,以实现跨多样用户界面范式的稳健无缝交互。我们在Online-Mind2Web这一严格评估实时用户中心网络任务的基准上对Avenir-Web进行了测试。结果表明,Avenir-Web显著超越了先前的开源代理,并与顶尖专有模型达到性能持平,从而为实时网站上的可靠网络代理确立了新的开源标杆。

← Back