GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents<br>GameplayQA:面向决策密集型POV同步多视频理解的3D虚拟智能体基准测试框架<br>[摘要](abstracts/2603.24329.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型正日益被部署为从机器人到虚拟世界等3D环境中自主智能体的感知骨干。这些应用要求智能体感知快速的状态变化、将动作正确归因于相应实体,并从第一人称视角推理并发多智能体行为,而现有基准测试未能充分评估这些能力。我们提出了GameplayQA,一个通过视频理解来评估智能体中心感知与推理能力的框架。具体而言,我们以每秒1.22个标签的密度对多人3D游戏视频进行标注,提供时间同步且并行的状态、动作和事件描述,这些描述围绕自我、其他智能体与世界这一三元系统进行结构化组织——这是多智能体环境中的一种自然分解方式。基于这些标注,我们提炼出2.4K个诊断性问答对,按认知复杂度分为三个层级,并辅以结构化的干扰项分类法,能够精细分析模型产生幻觉的具体环节。对前沿多模态大语言模型的评估显示,其性能与人类表现存在显著差距,常见失败包括时间与跨视频定位、智能体角色归因,以及处理游戏决策密度等方面。我们希望GameplayQA能推动具身人工智能、智能体感知与世界建模交叉领域的未来研究。

← Back