Abstract not available.
训练多模态大语言模型长期以来受限于高质量配对多模态数据的稀缺。近期研究表明,预训练多模态对比模型中的共享表示空间可以作为桥梁,使模型能够利用单模态数据进行多模态训练。然而,这一范式的关键前提仍未被充分理解:来自不同模态的表示是否能够可靠地互换?核心障碍在于共享空间中存在的持久性模态鸿沟。在本工作中,我们重新审视了模态鸿沟的几何本质。我们发现模态表示已经共享了兼容的主导语义几何结构。真正阻碍模态可互换性的并非简单的全局偏移,而是集中在少数主导方向上的各向异性残差结构。基于这一发现,我们进一步提出了各向异性模态鸿沟对齐的原则:有效的模态对齐应在保留源模态语义结构的同时,与目标模态分布对齐。在此原则指导下,我们提出了一个各向异性几何校正框架 AnisoAlign,用于非配对模态对齐。该框架利用目标模态的内部几何先验,对源模态表示进行有界校正,从而在目标模态中构建替代表示。实验在几何诊断和纯文本 MLLM 训练中均验证了其优势。总体而言,本工作将模态鸿沟从经验观察重新定义为一个可校正的结构化几何现象,并为利用单模态数据训练多模态模型提供了新的表示对齐视角。