GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents<br>GameplayQA：面向决策密集型POV同步多视频理解的3D虚拟智能体基准测试框架<br>[摘要](abstracts/2603.24329.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型正日益被部署为从机器人到虚拟世界等3D环境中自主智能体的感知骨干。这些应用要求智能体感知快速的状态变化、将动作正确归因于相应实体，并从第一人称视角推理并发多智能体行为，而现有基准测试未能充分评估这些能力。我们提出了GameplayQA，一个通过视频理解来评估智能体中心感知与推理能力的框架。具体而言，我们以每秒1.22个标签的密度对多人3D游戏视频进行标注，提供时间同步且并行的状态、动作和事件描述，这些描述围绕自我、其他智能体与世界这一三元系统进行结构化组织——这是多智能体环境中的一种自然分解方式。基于这些标注，我们提炼出2.4K个诊断性问答对，按认知复杂度分为三个层级，并辅以结构化的干扰项分类法，能够精细分析模型产生幻觉的具体环节。对前沿多模态大语言模型的评估显示，其性能与人类表现存在显著差距，常见失败包括时间与跨视频定位、智能体角色归因，以及处理游戏决策密度等方面。我们希望GameplayQA能推动具身人工智能、智能体感知与世界建模交叉领域的未来研究。

← Back