Abstract not available.
视觉-语言-动作模型在语义泛化方面表现优异,但通常缺乏对世界动力学的精细建模。近期研究探索将视频生成模型作为世界建模的基础,从而衍生出统一建模视觉动态与动作的世界动作模型。本文提出MotuBrain,一种基于UniDiffuser框架、采用三流混合专家Transformer架构的统一多模态生成模型,可联合建模视频与动作。单一模型支持多种推理模式,包括策略学习、世界建模、视频生成、逆动力学以及联合视频-动作预测,并能扩展到异构多模态数据(如纯视频数据与跨具身机器人数据)。为提升实际应用性,MotuBrain引入统一的多视角表征、显式语言-动作耦合机制以及高效推理栈,实现超50倍的实时部署加速。