Abstract not available.
交错式文本与图像生成是多模态大语言模型(MLLMs)的一个重要前沿领域,为传达复杂信息提供了更直观的方式。当前范式主要依赖图像生成或检索增强,但通常将两者视为互斥路径,未能统一事实性与创造性。我们认为该领域的下一个里程碑是智能体工具规划,即模型作为中央控制器,自主决定何时、何处以及调用何种工具,以针对视觉关键查询生成交错式响应。为系统评估这一范式,我们引入了ATP-Bench,这是一个包含7,702个问答对(含1,592个视觉问答对)的新基准,涵盖八个类别和25种视觉关键意图,并配备人工验证的查询与真实答案。此外,为独立于端到端执行和可变工具后端评估智能体规划,我们提出了多智能体MLLM即评判系统。该系统无需真实参考,即可评估工具调用精度、识别工具使用的遗漏机会,并评判整体响应质量。我们在10个先进MLLMs上的广泛实验表明,模型在连贯的交错规划方面存在困难,且工具使用行为差异显著,凸显了巨大的改进空间,并为推进交错生成提供了可操作的指导。数据集与代码发布于https://github.com/Qwen-Applications/ATP-Bench。