A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models<br>大型视觉语言模型的信息分解综合分析<br>[摘要](abstracts/2603.29676.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（LVLMs）展现出卓越的性能，但其内部决策过程仍不透明，难以确定其成功是源于真正的多模态融合，还是依赖于单模态先验。为填补这一归因空白，我们引入了一种新颖框架，利用部分信息分解（PID）来定量测量LVLMs的“信息谱”——将模型决策相关信息分解为冗余、独特和协同成分。通过将可扩展的估计器适配于现代LVLM输出，我们的模型无关流程在四个数据集上对26个LVLMs进行了三维度分析：广度（跨模型与跨任务）、深度（层级信息动态）和时间（训练过程中的学习动态）。分析揭示了两个关键结果：（i）两种任务机制（协同驱动与知识驱动）；（ii）两种稳定且对比鲜明的家族级策略（融合中心型与语言中心型）。我们还发现了层级处理中一致的三阶段模式，并确定视觉指令微调是学习融合的关键阶段。这些贡献共同提供了一个超越仅精度评估的定量视角，并为分析和设计下一代LVLM提供了见解。代码和数据可在 https://github.com/RiiShin/pid-lvlm-analysis 获取。

← Back