Abstract not available.
直接从当前观测预测多步动作块的视觉-语言-动作(VLA)模型,因场景理解受限和未来预测能力薄弱而面临固有局限。相比之下,基于网络规模视频语料预训练的视频世界模型展现出强大的时空推理和精准的未来预测能力,使其成为增强VLA学习的天然基础。为此,我们提出\textit{GigaBrain-0.5M*},一种通过基于世界模型的强化学习训练的VLA模型。该模型建立在\textit{GigaBrain-0.5}之上——后者已在超过10,000小时的机器人操作数据上预训练,其中间版本目前在国际RoboChallenge基准测试中位列第一。\textit{GigaBrain-0.5M*}进一步通过\textit{RAMP}(基于世界模型条件策略的强化学习)集成基于世界模型的强化学习,以实现鲁棒的跨任务适应。实证结果表明,\textit{RAMP}相比RECAP基线取得了显著的性能提升,在包括\texttt{衣物折叠}、\texttt{装箱打包}和\texttt{意式咖啡制备}等挑战性任务上实现了约30%的改进。关键的是,\textit{GigaBrain-0.5M*}展现出可靠的长时程执行能力,能够持续完成复杂操作任务且无失败,这已通过我们\href{https://gigabrain05m.github.io}{项目页面}上的真实部署视频得到验证。