Abstract not available.
尽管扩散模型在美学图像合成方面展现出卓越能力,但在复杂空间理解和推理任务中常面临挑战。现有方法多依赖多模态大语言模型(MLLMs)来增强此能力,但要么通过联合训练导致高昂计算成本,要么因仅依赖文本提示而遭受空间信息损失。为缓解这些局限,我们提出空间思维链(SCoT)框架——一种即插即用方法,有效桥接MLLMs的推理能力与扩散模型的生成能力。具体而言,我们首先通过交错文本-坐标指令格式训练扩散模型以增强其布局感知能力;随后利用先进MLLMs作为规划器生成全面布局方案,将其空间规划能力直接迁移至生成过程。大量实验表明,我们的方法在图像生成基准测试中达到最先进性能,在复杂推理任务上显著超越基线模型,同时在图像编辑场景中也展现出强大效能。