RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding<br>RS-HyRe-R1:一种克服遥感图像理解中感知惯性的混合奖励机制<br>[摘要](abstracts/2604.17504.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习(RL)后训练显著提升了遥感视觉语言模型(RS-VLMs)的性能。然而,在处理需要详尽视觉扫描的复杂遥感图像(RSI)时,模型倾向于依赖局部显著线索进行快速推理。我们将这种由强化学习引发的偏差称为“感知惯性”。在奖励最大化的驱动下,模型偏好快速拟合结果,导致两个局限:认知上,对特定特征的过度依赖阻碍了完整证据的构建;操作上,模型难以灵活地在不同任务间切换视觉焦点。为纠正此偏差并鼓励全面的视觉证据挖掘,我们提出了RS-HyRe-R1,一个用于遥感图像理解的混合奖励框架。它引入了:(1)空间推理激活奖励,强制进行结构化视觉推理;(2)感知正确性奖励,为不同遥感任务提供自适应质量锚点,确保准确的几何和语义对齐;(3)视觉-语义路径演化奖励,惩罚重复推理并促进探索互补线索,以构建更丰富的证据链。实验表明,RS-HyRe-R1有效缓解了“感知惯性”,鼓励了更深入、更多样化的推理。仅使用30亿参数,它在REC、OVD和VQA任务上实现了最先进的性能,超越了参数高达70亿的模型。同时,它展现出强大的零样本泛化能力,在VQA、OVD和REC任务上分别超过次优模型3.16%、3.97%和2.72%。代码和数据集可在https://github.com/geox-lab/RS-HyRe-R1获取。

← Back