Abstract not available.
记忆能力对于大型视觉-语言模型处理长序列多模态交互至关重要,目前有两种主流方法提供此能力:长上下文LVLMs和记忆增强型智能体。然而,现有基准测试尚未在真正需要多模态证据的问题上对这两种方法进行系统性比较。为填补这一空白,我们提出了MEMLENS——一个用于多模态多轮会话记忆的综合基准测试。该基准包含789个问题,涵盖五种记忆能力(信息提取、跨会话推理、时序推理、知识更新和拒绝回答),在四种标准上下文长度(32K-256K tokens)下采用跨模态token计数方案进行评估。通过图像消融实验证实,解决MEMLENS问题需要视觉证据:移除证据图像后,在80.4%包含图像证据的问题上,前沿LVLMs的准确率降至2%以下。通过对27个LVLMs和7个记忆增强型智能体的评估,我们发现:长上下文LVLMs通过直接视觉定位在短上下文中表现出高准确率,但随会话增长性能下降;而记忆型智能体虽保持长度稳定性,但在存储时压缩会导致视觉保真度损失。多数系统在跨会话推理任务中的准确率低于30%,且单一方法均无法完全解决该任务。这些结果启发我们结合长上下文注意力机制与结构化多模态检索的混合架构。我们的代码已开源至https://github.com/xrenaf/MEMLENS。