Abstract not available.
在现实世界的多模态应用中,系统通常需要理解用户输入的任意组合和交错多模态内容,同时还需生成任意交错多媒体形式的输出。这种能力定义了在统一理解与生成范式下任意到任意交错多模态学习的目标,为推进多模态大语言模型(MLLMs)的发展带来了新的挑战与机遇。为促进和评估这一能力,本文引入了UniM基准,这是首个统一的任意到任意交错多模态数据集。UniM包含31K个高质量实例,覆盖30个领域和7种代表性模态:文本、图像、音频、视频、文档、代码和3D,每个实例均要求具备多种交织的推理与生成能力。我们进一步推出了UniM评估套件,从三个维度评估模型:语义正确性与生成质量、响应结构完整性以及交错连贯性。此外,我们提出了UniMA,一种配备可追溯推理能力的代理基线模型,用于结构化交错生成。综合实验证明了UniM的难度,并突出了推进统一任意到任意多模态智能的关键挑战与方向。项目页面为https://any2any-mllm.github.io/unim。