CrystaL: Spontaneous Emergence of Visual Latents in MLLMs<br>CrystaL：多模态大语言模型中视觉潜在特征的自发涌现<br>[摘要](abstracts/2602.20980.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）通过将强大的语言主干网络与大规模视觉编码器相结合，取得了显著性能。其中，潜在思维链方法能够在连续的隐藏状态中进行隐式推理，促进视觉与语言的无缝整合并加速推理过程。然而，现有潜在思维链中启发式预定义的监督信号对于在中间潜在状态中保留关键视觉信息的指导作用有限。为解决这一局限，我们提出了CrystaL（结晶化潜在推理），这是一个单阶段框架，包含两条路径分别处理完整图像和受损图像。通过显式对齐两条路径间的注意力模式和预测分布，CrystaL将潜在表征结晶为任务相关的视觉语义，无需依赖辅助标注或外部模块。在感知密集型基准测试上的大量实验表明，CrystaL始终优于最先进的基线方法，在保持强大推理能力的同时，实现了细粒度视觉理解能力的显著提升。

← Back