Abstract not available.
基于视觉输入的物理推理需要视觉感知、领域知识与多步符号推理的紧密集成。然而,即使是当前最先进的视觉语言模型(VLMs)在物理基准测试中的表现也远不及人类。尽管监督微调(SFT)和组相对策略优化(GRPO)等后训练算法已在语言模型中展现出显著的推理提升,但奖励设计如何影响VLM的物理推理行为仍鲜为人知。本研究针对基于GRPO的VLM物理推理训练,进行了系统的奖励消融分析。我们比较了四种语义丰富度递增的奖励信号:格式合规性、答案准确性、综合评分奖励(包括答案正确性、物理原理识别和单位一致性),以及一种基于模型对输入图像区域注意力权重的新型内部奖励。我们在PhyX基准上进行了评估,该基准包含3,000个问题,涵盖六个物理领域和六种推理类型,支持多项选择和开放式两种格式,实验使用IBM Granite Vision 3.3(2B)模型。结果显示,在两种格式下,基于准确性奖励的GRPO在大多数领域优于SFT,但提升幅度因奖励类型和领域差异显著。奖励设计并未一致性地提升性能,而是诱导出领域特定的推理行为:准确性奖励带来最全面的性能增益;评分奖励提高了结构化推理质量,但未持续提升准确性;基于注意力的奖励增强了空间推理能力,却在符号领域导致性能下降。我们提出的内部注意力权重奖励无需空间标注,将空间关系准确性从0.27提升至0.50,这表明在生成过程中监督模型的注意力分布是视觉化物理推理中一个极具前景的研究方向。