Abstract not available.
尽管语言推理模型在许多任务中表现出色,但视觉推理对于当前的大型多模态模型(LMMs)而言仍具挑战性。因此,大多数LMMs倾向于将感知内容转化为文本,这对于需要细粒度空间和视觉理解的任务构成了显著限制。虽然近期方法通过调用工具或生成中间图像向图像思维迈进,但它们要么依赖外部模块,要么因直接在像素空间进行推理而产生不必要的计算开销。本文提出LanteRn框架,使LMMs能够在推理过程中交替使用语言与紧凑的潜在视觉表征,从而实现直接在潜在空间中进行视觉推理。LanteRn增强了视觉语言变换器,使其能够在推理过程中生成并关注连续的视觉思维嵌入。我们通过两阶段训练模型:首先进行监督微调以将视觉特征锚定于潜在状态,随后通过强化学习使潜在推理与任务级效用对齐。我们在三个以感知为中心的基准测试(VisCoT、V*和Blink)上评估LanteRn,观察到其在视觉定位和细粒度推理方面均取得持续改进。这些结果表明,内部潜在表征为更高效的多模态推理提供了有前景的发展方向。