GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning<br>GazeVLM:通过内部注意力控制实现主动视觉进行多模态推理<br>[摘要](abstracts/2605.07817.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

人类的视觉推理由主动视觉主导,这是一种元认知控制驱动自上而下的目标导向注意力的过程,动态地将中央凹焦点引导至任务相关细节,同时保持对全局场景的外围感知。相比之下,现代视觉语言模型(VLM)被动地处理视觉信息,依赖大量标记上下文的静态积累,这稀释了空间推理能力并引发语言幻觉。在此,我们提出以下范式转变:GazeVLM,一种多模态架构,将对其注意力资源部署的元认知监督直接内化到推理循环中。通过赋予VLM自主生成注视标记($ exttt{<LOOK>}$)的能力,GazeVLM在其自身的因果注意力掩码上建立了一种自上而下的控制机制。该模型动态指示其焦点意图,触发持续的抑制偏置以减弱无关视觉特征,实现空间选择性注意并模拟中央凹注视。一旦局部推理结束,偏置解除,全局视图无缝恢复。该架构使模型能够在全局空间感知与局部焦点推理之间流畅切换,无需依赖外部代理工具(如裁剪工具)或通过从局部视觉补丁中提取额外视觉标记来膨胀上下文窗口。通过定制化的组相对策略优化(GRPO)程序进行训练,该程序奖励有效定位,我们的4B参数GazeVLM在HRBench-4k和HRBench-8k上展现出强大的高分辨率多模态推理性能,在其参数类别中超越最先进的VLM近4%,并比基于图像思维的代理多模态流程高出5%以上。

← Back