Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training<br>Hi-WM：世界模型驱动的人机协同机器人后训练框架<br>[摘要](abstracts/2604.21741.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

后训练对于将预训练的通用机器人策略转化为可靠的任务专用控制器至关重要，但现有的人机交互流水线仍受限于物理执行：每次修正都需要在真实世界中占用机器人时间、配置场景、重置状态并安排操作员监督。与此同时，动作条件世界模型主要被研究用于想象、合成数据生成和策略评估。我们提出**人机协同世界模型（Hi-WM）**，这是一种后训练框架，将学习到的世界模型作为可复用的修正基板，用于针对失败点的策略改进。具体而言，策略首先在世界模型内部闭环运行；当运行轨迹出现错误或易失败时，人类直接在世界模型中进行干预，提供简短的修正动作。Hi-WM缓存中间状态，并支持回退与分支操作，使得单个失败状态可被复用于多种修正延续，从而在基础策略表现欠佳的行为周围生成密集监督信号。随后将生成的修正轨迹重新加入训练集进行后训练。我们在涵盖刚体与可变形物体交互的三项真实世界操作任务及两种策略骨干网络上评估Hi-WM。相较于基础策略，Hi-WM使真实世界成功率平均提升37.9个百分点；相较于基于世界模型的闭环基线，提升19.0个百分点；同时世界模型评估与真实世界性能呈强相关性（r=0.953）。这些结果表明，世界模型不仅能作为生成器或评估器，更能成为可扩展机器人后训练的有效修正基板。

← Back