GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning<br>GazeVLM：通过内部注意力控制实现主动视觉进行多模态推理<br>[摘要](abstracts/2605.07817.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

人类的视觉推理由主动视觉主导，这是一种元认知控制驱动自上而下的目标导向注意力的过程，动态地将中央凹焦点引导至任务相关细节，同时保持对全局场景的外围感知。相比之下，现代视觉语言模型（VLM）被动地处理视觉信息，依赖大量标记上下文的静态积累，这稀释了空间推理能力并引发语言幻觉。在此，我们提出以下范式转变：GazeVLM，一种多模态架构，将对其注意力资源部署的元认知监督直接内化到推理循环中。通过赋予VLM自主生成注视标记（$ exttt{<LOOK>}$）的能力，GazeVLM在其自身的因果注意力掩码上建立了一种自上而下的控制机制。该模型动态指示其焦点意图，触发持续的抑制偏置以减弱无关视觉特征，实现空间选择性注意并模拟中央凹注视。一旦局部推理结束，偏置解除，全局视图无缝恢复。该架构使模型能够在全局空间感知与局部焦点推理之间流畅切换，无需依赖外部代理工具（如裁剪工具）或通过从局部视觉补丁中提取额外视觉标记来膨胀上下文窗口。通过定制化的组相对策略优化（GRPO）程序进行训练，该程序奖励有效定位，我们的4B参数GazeVLM在HRBench-4k和HRBench-8k上展现出强大的高分辨率多模态推理性能，在其参数类别中超越最先进的VLM近4%，并比基于图像思维的代理多模态流程高出5%以上。

← Back