AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games<br>AI游戏商店：通过人类游戏实现机器通用智能的可扩展、开放式评估<br>[摘要](abstracts/2602.17594.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在技术飞速发展的时代，针对人类通用智能的广泛谱系来严格评估机器智能变得日益重要且充满挑战。传统的AI基准测试通常仅评估人类活动中有限范围的狭窄能力，且大多为静态设计，随着开发者显式或隐式地针对其进行优化，这些基准很快趋于饱和。我们提出，评估AI系统中类人通用智能的一个更有前景的方法是通过一种特别强大的通用游戏玩法形式：研究它们如何以及以何种水平玩并学会玩**所有可能的人类游戏**，并与具有相同经验水平、时间或其他资源的人类玩家进行比较。我们将“人类游戏”定义为由人类为人类设计的游戏，并论证了评估这一人类能够想象并享受的所有此类游戏空间——即“人类游戏多元宇宙”——的适宜性。为实现这一愿景迈出第一步，我们引入了AI游戏商店，这是一个可扩展且开放式的平台，利用大语言模型结合人类参与，通过自动从流行的人类数字游戏平台获取并适配标准化、容器化的游戏环境变体，来合成新的代表性人类游戏。作为概念验证，我们基于苹果应用商店和Steam的排行榜生成了100个此类游戏，并在短时游戏片段中评估了七个前沿视觉语言模型。最佳模型在大多数游戏上的得分低于人类平均水平的10%，尤其是在挑战世界模型学习、记忆和规划能力的游戏上表现不佳。最后，我们提出了一系列后续步骤，以将AI游戏商店建设为一种实用的方法，用于衡量并推动机器向类人通用智能的进展。

← Back