IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation<br>IG-RFT:面向长时程机器人操作的交互引导强化学习框架,用于视觉-语言-动作模型<br>[摘要](abstracts/2602.20715.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型在通用机器人策略方面展现出巨大潜力,但由于分布偏移和高质量演示数据的稀缺,其在新颖真实世界领域的长时程复杂任务中泛化能力不足。尽管强化学习(RL)为策略改进提供了可行路径,但将其应用于真实世界VLA模型的微调仍面临探索效率、训练稳定性和样本成本等挑战。为解决这些问题,我们提出了IG-RFT,一种专为基于流程的VLA模型设计的交互引导强化微调系统。首先,为促进有效的策略优化,我们引入了交互引导优势加权回归(IG-AWR)算法,该算法能根据机器人的交互状态动态调整探索强度。此外,针对稀疏或任务特定奖励的局限性,我们设计了一种新型混合密集奖励函数,融合了轨迹级奖励和子任务级奖励。最后,我们构建了一个包含监督微调、离线强化学习和人在回路强化学习的三阶段RL系统,用于微调VLA模型。在四项具有挑战性的长时程任务上进行的大量真实世界实验表明,IG-RFT实现了平均85.0%的成功率,显著优于监督微调(18.8%)和标准离线强化学习基线(40.0%)。消融研究证实了IG-AWR和混合奖励塑形的关键贡献。总之,我们的工作建立并验证了一种适用于真实世界机器人操作的VLA模型强化微调系统。

← Back