Abstract not available.
多模态持续指令调优(MCIT)对于多模态大语言模型(MLLMs)的序列任务适应至关重要,但受到灾难性遗忘的严重制约。现有研究主要关注推理语言主干,而本文揭示了一个关键但被忽视的双重遗忘现象:既存在于跨模态投影空间中的感知漂移,也存在于低秩参数空间中的推理崩溃。为解决此问题,我们提出 **MAny**(**M**erge **Any**thing)框架,通过 **跨模态投影合并(CPM)** 与 **低秩参数合并(LPM)** 来融合任务特定知识。具体而言,CPM 通过视觉原型引导自适应地合并跨模态视觉表征,恢复感知对齐,确保推理过程中特征的准确重建;同时,LPM 通过递归合并低秩权重矩阵,消除任务特定低秩模块间的相互干扰。利用递归最小二乘法,LPM 提供了闭式解,从数学上保证了推理稳定性的最优融合轨迹。值得注意的是,MAny 作为一种免训练范式,仅通过高效的基于CPU的代数运算实现知识合并,无需在初始调优之外进行额外的基于梯度的优化。我们的大量实验验证了MAny在多种MLLMs和基准测试中的卓越性能与鲁棒性。具体而言,在UCIT基准上,MAny在两种不同MLLMs上分别以高达8.57%和2.85%的最终平均准确率领先于现有最先进方法。