Abstract not available.
视觉-语言-动作(VLA)模型旨在通过视觉观察和自然语言指令来控制机器人执行操作。然而,现有的分层和自回归范式通常引入架构冗余,存在时序不一致性和长时程误差累积问题,且缺乏无需额外模块捕捉环境动态的机制。为此,我们提出了MMaDA-VLA,一个完全原生预训练的大型扩散VLA模型,在单一框架内统一了多模态理解与生成。其核心思想是一种原生离散扩散框架,将语言、图像和连续机器人控制嵌入到统一的离散标记空间中,并通过掩码标记去噪训练单一骨干网络,以并行方式联合生成未来目标观察和动作片段。迭代去噪实现了全局、无序的优化,提升了长时程一致性,同时将动作基于预测的未来视觉结果,无需辅助世界模型。在仿真基准和真实世界任务上的实验表明,该模型达到了最先进的性能,在LIBERO上平均成功率高达98.0%,在CALVIN上平均长度为4.78。