Abstract not available.
多模态大语言模型(MLLMs)正从被动观察者演变为主动智能体,通过视觉扩展(调用视觉工具)和知识扩展(开放网络搜索)来解决问题。然而,现有评估存在不足:缺乏灵活的工具集成、分别测试视觉与搜索工具,且主要依据最终答案进行评估。因此,它们无法验证工具是否实际被调用、是否正确应用或是否高效使用。为解决这一问题,我们提出了Agentic-MME,一个面向多模态智能体能力的流程验证基准。该基准包含418个现实世界任务,覆盖6个领域和3个难度级别,用于评估能力协同,并设有超过2000个逐步检查点,平均每个任务需10+人时的人工标注。每个任务均配备统一评估框架,支持沙盒代码和API,同时提供带有人工参考轨迹的标注,该轨迹沿双轴(S轴和V轴)设有逐步检查点。为实现真正的流程级验证,我们审计细粒度的中间状态而非仅最终答案,并通过相对于人工轨迹的过度思考指标量化效率。实验结果显示,最佳模型Gemini3-pro的整体准确率为56.3%,而在三级任务上显著下降至23.0%,这凸显了现实世界多模态智能体问题解决的挑战性。