A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models<br>大型视觉语言模型的信息分解综合分析<br>[摘要](abstracts/2603.29676.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)展现出卓越的性能,但其内部决策过程仍不透明,难以确定其成功是源于真正的多模态融合,还是依赖于单模态先验。为填补这一归因空白,我们引入了一种新颖框架,利用部分信息分解(PID)来定量测量LVLMs的“信息谱”——将模型决策相关信息分解为冗余、独特和协同成分。通过将可扩展的估计器适配于现代LVLM输出,我们的模型无关流程在四个数据集上对26个LVLMs进行了三维度分析:广度(跨模型与跨任务)、深度(层级信息动态)和时间(训练过程中的学习动态)。分析揭示了两个关键结果:(i)两种任务机制(协同驱动与知识驱动);(ii)两种稳定且对比鲜明的家族级策略(融合中心型与语言中心型)。我们还发现了层级处理中一致的三阶段模式,并确定视觉指令微调是学习融合的关键阶段。这些贡献共同提供了一个超越仅精度评估的定量视角,并为分析和设计下一代LVLM提供了见解。代码和数据可在 https://github.com/RiiShin/pid-lvlm-analysis 获取。

← Back