ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation<br>ATP-Bench：迈向多模态大语言模型交错生成的智能体工具规划<br>[摘要](abstracts/2603.29902.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

交错式文本与图像生成是多模态大语言模型（MLLMs）的一个重要前沿领域，为传达复杂信息提供了更直观的方式。当前范式主要依赖图像生成或检索增强，但通常将两者视为互斥路径，未能统一事实性与创造性。我们认为该领域的下一个里程碑是智能体工具规划，即模型作为中央控制器，自主决定何时、何处以及调用何种工具，以针对视觉关键查询生成交错式响应。为系统评估这一范式，我们引入了ATP-Bench，这是一个包含7,702个问答对（含1,592个视觉问答对）的新基准，涵盖八个类别和25种视觉关键意图，并配备人工验证的查询与真实答案。此外，为独立于端到端执行和可变工具后端评估智能体规划，我们提出了多智能体MLLM即评判系统。该系统无需真实参考，即可评估工具调用精度、识别工具使用的遗漏机会，并评判整体响应质量。我们在10个先进MLLMs上的广泛实验表明，模型在连贯的交错规划方面存在困难，且工具使用行为差异显著，凸显了巨大的改进空间，并为推进交错生成提供了可操作的指导。数据集与代码发布于https://github.com/Qwen-Applications/ATP-Bench。

← Back