LanteRn: Latent Visual Structured Reasoning<br>LanteRn：潜在视觉结构化推理<br>[摘要](abstracts/2603.25629.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管语言推理模型在许多任务中表现出色，但视觉推理对于当前的大型多模态模型（LMMs）而言仍具挑战性。因此，大多数LMMs倾向于将感知内容转化为文本，这对于需要细粒度空间和视觉理解的任务构成了显著限制。虽然近期方法通过调用工具或生成中间图像向图像思维迈进，但它们要么依赖外部模块，要么因直接在像素空间进行推理而产生不必要的计算开销。本文提出LanteRn框架，使LMMs能够在推理过程中交替使用语言与紧凑的潜在视觉表征，从而实现直接在潜在空间中进行视觉推理。LanteRn增强了视觉语言变换器，使其能够在推理过程中生成并关注连续的视觉思维嵌入。我们通过两阶段训练模型：首先进行监督微调以将视觉特征锚定于潜在状态，随后通过强化学习使潜在推理与任务级效用对齐。我们在三个以感知为中心的基准测试（VisCoT、V*和Blink）上评估LanteRn，观察到其在视觉定位和细粒度推理方面均取得持续改进。这些结果表明，内部潜在表征为更高效的多模态推理提供了有前景的发展方向。

← Back