MotuBrain: An Advanced World Action Model for Robot Control<br>MotuBrain：一种面向机器人控制的高级世界动作模型<br>[摘要](abstracts/2604.27792.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型在语义泛化方面表现优异，但通常缺乏对世界动力学的精细建模。近期研究探索将视频生成模型作为世界建模的基础，从而衍生出统一建模视觉动态与动作的世界动作模型。本文提出MotuBrain，一种基于UniDiffuser框架、采用三流混合专家Transformer架构的统一多模态生成模型，可联合建模视频与动作。单一模型支持多种推理模式，包括策略学习、世界建模、视频生成、逆动力学以及联合视频-动作预测，并能扩展到异构多模态数据（如纯视频数据与跨具身机器人数据）。为提升实际应用性，MotuBrain引入统一的多视角表征、显式语言-动作耦合机制以及高效推理栈，实现超50倍的实时部署加速。

← Back