Abstract not available.
尽管视觉语言模型(VLMs)已显著推进遥感影像解译,但使其能够执行复杂的逐步推理仍极具挑战。近期将思维链(CoT)推理引入该领域的尝试展现出潜力,然而确保这些中间步骤的视觉忠实性仍是关键瓶颈。为此,我们提出GeoSolver——一种将遥感推理转向可验证、过程监督强化学习的新框架。我们首先构建Geo-PRM-2M,这是一个通过熵引导蒙特卡洛树搜索(MCTS)和定向视觉幻觉注入合成的大规模令牌级过程监督数据集。基于此数据集,我们训练GeoPRM(令牌级过程奖励模型),以提供细粒度的忠实性反馈。为有效利用这些验证信号,我们提出过程感知树状GRPO算法,该算法将树结构探索与忠实性加权奖励机制相结合,以精确分配中间步骤的贡献度。大量实验表明,我们的最终模型GeoSolver-9B在多样化遥感基准测试中实现了最先进的性能。尤为关键的是,GeoPRM解锁了鲁棒的测试时扩展(TTS)能力:作为通用地理空间验证器,它无缝扩展了GeoSolver-9B的性能,并直接增强了通用视觉语言模型,彰显了其卓越的跨模型泛化能力。