RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding<br>RS-HyRe-R1：一种克服遥感图像理解中感知惯性的混合奖励机制<br>[摘要](abstracts/2604.17504.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习（RL）后训练显著提升了遥感视觉语言模型（RS-VLMs）的性能。然而，在处理需要详尽视觉扫描的复杂遥感图像（RSI）时，模型倾向于依赖局部显著线索进行快速推理。我们将这种由强化学习引发的偏差称为“感知惯性”。在奖励最大化的驱动下，模型偏好快速拟合结果，导致两个局限：认知上，对特定特征的过度依赖阻碍了完整证据的构建；操作上，模型难以灵活地在不同任务间切换视觉焦点。为纠正此偏差并鼓励全面的视觉证据挖掘，我们提出了RS-HyRe-R1，一个用于遥感图像理解的混合奖励框架。它引入了：（1）空间推理激活奖励，强制进行结构化视觉推理；（2）感知正确性奖励，为不同遥感任务提供自适应质量锚点，确保准确的几何和语义对齐；（3）视觉-语义路径演化奖励，惩罚重复推理并促进探索互补线索，以构建更丰富的证据链。实验表明，RS-HyRe-R1有效缓解了“感知惯性”，鼓励了更深入、更多样化的推理。仅使用30亿参数，它在REC、OVD和VQA任务上实现了最先进的性能，超越了参数高达70亿的模型。同时，它展现出强大的零样本泛化能力，在VQA、OVD和REC任务上分别超过次优模型3.16%、3.97%和2.72%。代码和数据集可在https://github.com/geox-lab/RS-HyRe-R1获取。

← Back