Selective Training for Large Vision Language Models via Visual Information Gain<br>基于视觉信息增益的大型视觉语言模型选择性训练<br>[摘要](abstracts/2602.17186.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)已取得显著进展,但常受语言偏见影响,即在不依赖视觉证据的情况下生成答案。先前研究尝试通过解码策略、架构调整或精选指令数据来缓解此问题,但通常缺乏对单个训练样本或标记实际从图像中获益程度的定量衡量。本文提出视觉信息增益(VIG),一种基于困惑度的度量指标,用于衡量视觉输入所提供的预测不确定性降低程度。VIG支持在样本和标记级别进行细粒度分析,有效突显颜色、空间关系和属性等视觉基础元素。基于此,我们提出一种VIG引导的选择性训练方案,优先处理高VIG样本和标记。该方法通过专注于视觉信息丰富的样本和标记,提升了视觉基础能力并减轻了语言偏见,在显著减少监督的情况下实现了更优的性能。

← Back