GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision<br>GeoSolver：通过细粒度过程监督扩展遥感领域的测试时推理能力<br>[摘要](abstracts/2603.09551.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉语言模型（VLMs）已显著推进遥感影像解译，但使其能够执行复杂的逐步推理仍极具挑战。近期将思维链（CoT）推理引入该领域的尝试展现出潜力，然而确保这些中间步骤的视觉忠实性仍是关键瓶颈。为此，我们提出GeoSolver——一种将遥感推理转向可验证、过程监督强化学习的新框架。我们首先构建Geo-PRM-2M，这是一个通过熵引导蒙特卡洛树搜索（MCTS）和定向视觉幻觉注入合成的大规模令牌级过程监督数据集。基于此数据集，我们训练GeoPRM（令牌级过程奖励模型），以提供细粒度的忠实性反馈。为有效利用这些验证信号，我们提出过程感知树状GRPO算法，该算法将树结构探索与忠实性加权奖励机制相结合，以精确分配中间步骤的贡献度。大量实验表明，我们的最终模型GeoSolver-9B在多样化遥感基准测试中实现了最先进的性能。尤为关键的是，GeoPRM解锁了鲁棒的测试时扩展（TTS）能力：作为通用地理空间验证器，它无缝扩展了GeoSolver-9B的性能，并直接增强了通用视觉语言模型，彰显了其卓越的跨模型泛化能力。

← Back