MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation<br>MMaDA-VLA:统一多模态指令与生成的大型扩散视觉-语言-动作模型<br>[摘要](abstracts/2603.25406.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型旨在通过视觉观察和自然语言指令来控制机器人执行操作。然而,现有的分层和自回归范式通常引入架构冗余,存在时序不一致性和长时程误差累积问题,且缺乏无需额外模块捕捉环境动态的机制。为此,我们提出了MMaDA-VLA,一个完全原生预训练的大型扩散VLA模型,在单一框架内统一了多模态理解与生成。其核心思想是一种原生离散扩散框架,将语言、图像和连续机器人控制嵌入到统一的离散标记空间中,并通过掩码标记去噪训练单一骨干网络,以并行方式联合生成未来目标观察和动作片段。迭代去噪实现了全局、无序的优化,提升了长时程一致性,同时将动作基于预测的未来视觉结果,无需辅助世界模型。在仿真基准和真实世界任务上的实验表明,该模型达到了最先进的性能,在LIBERO上平均成功率高达98.0%,在CALVIN上平均长度为4.78。

← Back