IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation<br>IG-RFT：面向长时程机器人操作的交互引导强化学习框架，用于视觉-语言-动作模型<br>[摘要](abstracts/2602.20715.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型在通用机器人策略方面展现出巨大潜力，但由于分布偏移和高质量演示数据的稀缺，其在新颖真实世界领域的长时程复杂任务中泛化能力不足。尽管强化学习（RL）为策略改进提供了可行路径，但将其应用于真实世界VLA模型的微调仍面临探索效率、训练稳定性和样本成本等挑战。为解决这些问题，我们提出了IG-RFT，一种专为基于流程的VLA模型设计的交互引导强化微调系统。首先，为促进有效的策略优化，我们引入了交互引导优势加权回归（IG-AWR）算法，该算法能根据机器人的交互状态动态调整探索强度。此外，针对稀疏或任务特定奖励的局限性，我们设计了一种新型混合密集奖励函数，融合了轨迹级奖励和子任务级奖励。最后，我们构建了一个包含监督微调、离线强化学习和人在回路强化学习的三阶段RL系统，用于微调VLA模型。在四项具有挑战性的长时程任务上进行的大量真实世界实验表明，IG-RFT实现了平均85.0%的成功率，显著优于监督微调（18.8%）和标准离线强化学习基线（40.0%）。消融研究证实了IG-AWR和混合奖励塑形的关键贡献。总之，我们的工作建立并验证了一种适用于真实世界机器人操作的VLA模型强化微调系统。

← Back