When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning<br>何时想象与想象多少：基于世界模型的自适应测试时缩放用于视觉空间推理<br>[摘要](abstracts/2602.08236.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管多模态大语言模型（MLLMs）发展迅速，但在正确答案依赖于场景在未见或替代视角下如何呈现时，视觉空间推理仍不可靠。近期研究通过结合世界模型进行视觉想象来增强推理，但何时想象真正必要、多少想象有益以及何时想象有害等问题仍未得到充分理解。实践中，不加区分的想象会增加计算负担，甚至因引入误导性证据而降低性能。本研究对测试时视觉想象作为空间推理的可控资源进行了深入分析，探讨了静态视觉证据何时足够、想象何时能改进推理，以及过度或不必要的想象如何影响准确性和效率。为支持此分析，我们提出了AVIC，一种基于世界模型的自适应测试时框架，该框架在选择性调用和缩放视觉想象前，明确推理当前视觉证据的充分性。在空间推理基准（SAT、MMSI）和具身导航基准（R2R）上的实验结果表明，想象在关键、边缘或有害场景中存在明确区分，且选择性控制能以显著更少的世界模型调用和语言标记匹配或超越固定想象策略。总体而言，我们的发现强调了分析和控制测试时想象对于高效可靠空间推理的重要性。

← Back