Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?<br>Agentic-MME：智能体能力究竟为多模态智能带来什么？<br>[摘要](abstracts/2604.03016.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）正从被动观察者演变为主动智能体，通过视觉扩展（调用视觉工具）和知识扩展（开放网络搜索）来解决问题。然而，现有评估存在不足：缺乏灵活的工具集成、分别测试视觉与搜索工具，且主要依据最终答案进行评估。因此，它们无法验证工具是否实际被调用、是否正确应用或是否高效使用。为解决这一问题，我们提出了Agentic-MME，一个面向多模态智能体能力的流程验证基准。该基准包含418个现实世界任务，覆盖6个领域和3个难度级别，用于评估能力协同，并设有超过2000个逐步检查点，平均每个任务需10+人时的人工标注。每个任务均配备统一评估框架，支持沙盒代码和API，同时提供带有人工参考轨迹的标注，该轨迹沿双轴（S轴和V轴）设有逐步检查点。为实现真正的流程级验证，我们审计细粒度的中间状态而非仅最终答案，并通过相对于人工轨迹的过度思考指标量化效率。实验结果显示，最佳模型Gemini3-pro的整体准确率为56.3%，而在三级任务上显著下降至23.0%，这凸显了现实世界多模态智能体问题解决的挑战性。

← Back