From Perception to Action: Spatial AI Agents and World Models<br>从感知到行动:空间人工智能代理与世界模型<br>[摘要](abstracts/2602.01644.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大语言模型已成为代理推理与规划的主流方法,但其在符号领域的成功并未能直接迁移到物理世界。空间智能——即感知三维结构、推理物体关系并在物理约束下行动的能力——是一种正交的能力,对具身代理至关重要。现有综述往往孤立地讨论代理架构或空间领域,缺乏将这两种互补能力统一起来的框架。本文旨在弥合这一鸿沟。通过对2000余篇论文的系统梳理(其中引用顶级学术会议的742篇文献),我们提出了一个统一的三轴分类法,将代理能力与跨尺度的空间任务相连接。关键之处在于,我们区分了空间基础(对几何与物理的度量理解)与符号基础(将图像与文本关联),并论证仅凭感知无法赋予代理能力。我们的分析揭示了映射至这三个轴线的三项核心发现:(1)分层记忆系统(能力轴)对长时程空间任务至关重要;(2)图神经网络与大语言模型融合(任务轴)是结构化空间推理的有效途径;(3)世界模型(尺度轴)对于在微观到宏观空间尺度上实现安全部署不可或缺。最后,我们指出了六大挑战并展望未来研究方向,包括建立统一评估框架以标准化跨领域评估。该分类法为整合碎片化的研究奠定了基础,有望推动机器人、自动驾驶与地理空间智能等领域中新一代空间感知自主系统的发展。

← Back