MentisOculi: Revealing the Limits of Reasoning with Mental Imagery<br>MentisOculi：揭示心智意象推理的局限性<br>[摘要](abstracts/2602.02465.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

前沿模型正从仅能接收视觉信息的多模态大语言模型（MLLMs）向能够原生交错生成内容的统一多模态模型（UMMs）转变。这一转变激发了人们利用中间可视化作为推理辅助的兴趣，类似于人类的心智意象。该理念的核心在于以目标为导向形成、维持和操纵视觉表征的能力。为了评估和探究这一能力，我们开发了MentisOculi——一套程序化、分层化的多步推理问题集，适用于视觉化解决方案，并针对前沿模型的挑战进行了优化。通过评估从潜在标记到显式生成图像等多种视觉策略，我们发现它们通常未能提升性能。对UMMs的具体分析揭示了一个关键局限：尽管它们具备解决任务的文本推理能力，有时也能生成正确的视觉内容，但它们受到生成误差累积的影响，甚至无法有效利用真实的可视化信息。我们的研究结果表明，尽管视觉思维具有内在吸引力，但目前尚未对模型推理产生助益。MentisOculi为分析和弥合不同模型家族间的这一差距奠定了必要基础。

← Back