MAny: Merge Anything for Multimodal Continual Instruction Tuning<br>MAny：面向多模态持续指令调优的任意合并框架<br>[摘要](abstracts/2604.14016.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态持续指令调优（MCIT）对于多模态大语言模型（MLLMs）的序列任务适应至关重要，但受到灾难性遗忘的严重制约。现有研究主要关注推理语言主干，而本文揭示了一个关键但被忽视的双重遗忘现象：既存在于跨模态投影空间中的感知漂移，也存在于低秩参数空间中的推理崩溃。为解决此问题，我们提出 **MAny**（**M**erge **Any**thing）框架，通过 **跨模态投影合并（CPM）** 与 **低秩参数合并（LPM）** 来融合任务特定知识。具体而言，CPM 通过视觉原型引导自适应地合并跨模态视觉表征，恢复感知对齐，确保推理过程中特征的准确重建；同时，LPM 通过递归合并低秩权重矩阵，消除任务特定低秩模块间的相互干扰。利用递归最小二乘法，LPM 提供了闭式解，从数学上保证了推理稳定性的最优融合轨迹。值得注意的是，MAny 作为一种免训练范式，仅通过高效的基于CPU的代数运算实现知识合并，无需在初始调优之外进行额外的基于梯度的优化。我们的大量实验验证了MAny在多种MLLMs和基准测试中的卓越性能与鲁棒性。具体而言，在UCIT基准上，MAny在两种不同MLLMs上分别以高达8.57%和2.85%的最终平均准确率领先于现有最先进方法。

← Back