MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation<br>MMaDA-VLA：统一多模态指令与生成的大型扩散视觉-语言-动作模型<br>[摘要](abstracts/2603.25406.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型旨在通过视觉观察和自然语言指令来控制机器人执行操作。然而，现有的分层和自回归范式通常引入架构冗余，存在时序不一致性和长时程误差累积问题，且缺乏无需额外模块捕捉环境动态的机制。为此，我们提出了MMaDA-VLA，一个完全原生预训练的大型扩散VLA模型，在单一框架内统一了多模态理解与生成。其核心思想是一种原生离散扩散框架，将语言、图像和连续机器人控制嵌入到统一的离散标记空间中，并通过掩码标记去噪训练单一骨干网络，以并行方式联合生成未来目标观察和动作片段。迭代去噪实现了全局、无序的优化，提升了长时程一致性，同时将动作基于预测的未来视觉结果，无需辅助世界模型。在仿真基准和真实世界任务上的实验表明，该模型达到了最先进的性能，在LIBERO上平均成功率高达98.0%，在CALVIN上平均长度为4.78。

← Back