Abstract not available.
尽管近期多模态大语言模型(MLLMs)取得了显著进展,但其主要采用传统的自回归架构作为主干,在架构设计的有效性与效率方面仍有巨大探索空间。同时,最新研究已成功将离散扩散模型应用于视觉理解和图像生成等多个领域,揭示了其作为多模态系统主干架构的巨大潜力。受这些前沿研究的启发,我们提出了Omni-Diffusion——首个完全基于掩码离散扩散模型构建的任意模态到任意模态多模态语言模型,实现了文本、语音和图像跨模态理解与生成的统一。Omni-Diffusion采用统一的掩码离散扩散模型直接建模离散多模态标记的联合分布,不仅支持双模态任务,还能处理涉及多种模态的复杂场景。在多样化基准测试中,我们的方法在处理两种或更多模态时,其性能优于或与现有多模态系统相当,凸显了扩散模型在驱动下一代多模态基础模型方面的巨大潜力。项目网页:https://omni-diffusion.github.io。