Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation<br>空间思维链:连接理解与生成模型以实现空间推理生成<br>[摘要](abstracts/2602.11980.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管扩散模型在美学图像合成方面展现出卓越能力,但在复杂空间理解和推理任务中常面临挑战。现有方法多依赖多模态大语言模型(MLLMs)来增强此能力,但要么通过联合训练导致高昂计算成本,要么因仅依赖文本提示而遭受空间信息损失。为缓解这些局限,我们提出空间思维链(SCoT)框架——一种即插即用方法,有效桥接MLLMs的推理能力与扩散模型的生成能力。具体而言,我们首先通过交错文本-坐标指令格式训练扩散模型以增强其布局感知能力;随后利用先进MLLMs作为规划器生成全面布局方案,将其空间规划能力直接迁移至生成过程。大量实验表明,我们的方法在图像生成基准测试中达到最先进性能,在复杂推理任务上显著超越基线模型,同时在图像编辑场景中也展现出强大效能。

← Back