Abstract not available.
大型多模态模型(如LLaVA)通常通过自回归语言建模目标进行训练,这对视觉令牌仅提供间接监督。这常导致内部视觉表示较弱,并在分布偏移下表现脆弱。受最近在潜在去噪用于学习高质量视觉令牌化方面的进展启发,我们展示了相同的原理为改善LMM中内部视觉特征对齐和多模态理解提供了一种有效的视觉监督形式。我们提出了一种潜在去噪框架,该框架使用显著性感知的掩码与高斯噪声混合来破坏投影的视觉令牌。LMM通过一个解码器从选定的大语言模型中间层的隐藏状态中恢复干净的教师补丁特征,从而训练去噪这些被破坏的令牌。为防止表示坍塌,我们的框架还保留了教师的图像内相似性结构,并应用图像内对比补丁蒸馏。在推理时,破坏和辅助头部被禁用,不引入额外的推理开销。在一系列标准多模态基准测试中,我们的方法在视觉理解和推理上持续优于强基线,并在组合稳健性基准测试(如NaturalBench)上取得了明显增益。此外,在基准图像上应用类似ImageNet-C的非对抗性常见损坏时,我们的方法在中等和严重损坏水平下均保持更高准确性,并表现出更低的性能衰减。我们的代码可在https://github.com/dhruvashp/latent-denoising-for-lmms获取。