Abstract not available.
前沿模型正从仅能接收视觉信息的多模态大语言模型(MLLMs)向能够原生交错生成内容的统一多模态模型(UMMs)转变。这一转变激发了人们利用中间可视化作为推理辅助的兴趣,类似于人类的心智意象。该理念的核心在于以目标为导向形成、维持和操纵视觉表征的能力。为了评估和探究这一能力,我们开发了MentisOculi——一套程序化、分层化的多步推理问题集,适用于视觉化解决方案,并针对前沿模型的挑战进行了优化。通过评估从潜在标记到显式生成图像等多种视觉策略,我们发现它们通常未能提升性能。对UMMs的具体分析揭示了一个关键局限:尽管它们具备解决任务的文本推理能力,有时也能生成正确的视觉内容,但它们受到生成误差累积的影响,甚至无法有效利用真实的可视化信息。我们的研究结果表明,尽管视觉思维具有内在吸引力,但目前尚未对模型推理产生助益。MentisOculi为分析和弥合不同模型家族间的这一差距奠定了必要基础。