LensWalk: Agentic Video Understanding by Planning How You See in Videos<br>LensWalk：通过规划视频观看方式实现智能体驱动的视频理解<br>[摘要](abstracts/2603.24558.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频的密集时序特性给自动化分析带来了巨大挑战。尽管采用了强大的视觉语言模型，当前视频理解方法仍受限于推理与感知之间的固有脱节：它们依赖静态的预处理信息，无法在理解演进过程中主动从视频中获取原始证据。为此，我们提出LensWalk——一种灵活的智能体框架，使大型语言模型推理器能够主动控制其视觉观察过程。该框架构建了紧密的推理-规划-观察循环，智能体可在每一步动态指定观察视频的时间范围与采样密度。通过调用由这些参数配置的多样化视觉语言模型工具集，智能体能够执行线索的广泛扫描、聚焦特定片段进行事实提取，并整合多时刻证据以实现整体验证。这种设计支持直接服务于智能体思维链演进的渐进式按需证据收集。无需任何模型微调，LensWalk在多种模型方案上实现了显著的即插即用性能提升，在LVBench和Video-MME等长视频基准测试中将准确率提高超过5%。我们的分析表明，赋予智能体控制其观察方式的能力，是解锁更精准、鲁棒且可解释视频推理的关键。

← Back