Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models<br>Chart-RL：基于策略优化强化学习的视觉语言模型图表问答视觉推理增强方法<br>[摘要](abstracts/2604.03157.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）的最新进展正推动着对具备强大推理能力的真正智能的追求。在图表问答（CQA）这类涉及复杂数据可视化的任务中，语言推理必须与视觉理解深度融合，而不仅仅是模式识别。当前VLMs在CQA任务中存在显著局限，包括数值提取不精确、难以解读隐含的视觉关系，以及注意力机制在捕捉图表空间关系方面的不足。为此，本研究提出Chart-RL，一种新颖的强化学习框架，通过基于反馈的视觉感知与逻辑推理策略优化，提升VLMs的图表理解能力。我们的核心创新在于整合了策略优化强化学习与自适应奖励函数的完整框架，其性能不仅超越基线基础模型，还能与规模更大的先进架构竞争。同时，我们在强化学习框架中引入了基于低秩自适应（LoRA）的参数高效微调技术，仅需单GPU配置即可保持性能完整。基于ChartQAPro数据集，我们对开源、专有及前沿闭源模型进行了广泛基准测试。经强化学习微调的Qwen3-VL-4B-Instruct模型实现了0.634的答案准确率，超越了参数量为其两倍的Qwen3-VL-8B-Instruct基础模型（准确率0.580），同时将推理延迟从31秒降低至9秒。

← Back