Abstract not available.
预测性世界模型使智能体能够对场景动态进行建模,并推理其行为的后果。受人类感知启发,以对象为中心的世界模型利用对象级表征捕捉场景动态,可用于动作规划等下游应用。然而,大多数以对象为中心的世界模型和强化学习方法学习的是推理时固定的反应式策略,限制了其对新颖情境的泛化能力。我们提出Slot-MPC,一种以对象为中心的世界建模框架,通过模型预测控制实现规划。Slot-MPC利用视觉编码器学习基于槽的表征,对场景中的个体对象进行编码,并利用这些结构化表征学习一个以动作为条件的对象中心动态模型。在推理时,学习到的动态模型通过MPC实现动作规划,使智能体能够适应之前未见过的情境。由于学习到的世界模型是可微的,我们可以使用基于梯度的MPC直接优化动作,这比依赖无梯度、基于采样的MPC方法在计算上更高效。在模拟机器人操作任务上的实验表明,与不以对象为中心的世界模型基线相比,Slot-MPC同时提升了任务性能和规划效率。在考虑的状态-动作覆盖有限的离线设置中,我们发现基于梯度的MPC优于无梯度、基于采样的MPC。我们的结果表明,显式结构化的对象中心表征为可控且可泛化的决策提供了强大的归纳偏置。代码和更多结果见https://slot-mpc.github.io。