Abstract not available.
传统机器人系统通常依赖为受限环境定制的规划器。尽管在受限场景中有效,这些系统缺乏泛化能力,限制了具身人工智能与通用机器人的可扩展性。近期数据驱动的视觉-语言-动作方法旨在从大规模仿真与现实数据中学习策略。然而,物理世界的连续动作空间远超语言符号的表征能力,仅靠数据扩展能否实现通用机器人智能尚不明确。为填补这一空白,我们提出ActionReasoning,一种基于大语言模型的框架,通过显式动作推理生成物理一致、先验引导的机器人操作决策。该框架利用大语言模型中已编码的物理先验与现实世界知识,并将其组织于多智能体架构中。我们在砖块堆叠这一可验证案例中实例化该框架,假设环境状态已精确测量。环境状态经序列化后输入多智能体大语言模型框架,生成具备物理感知的动作规划。实验表明,所提出的多智能体大语言模型框架能实现稳定的砖块放置,同时将工作重心从底层领域特定编码转向高层工具调用与提示设计,凸显了其广泛泛化的潜力。本研究通过将物理推理与大语言模型相结合,为机器人操作中感知与执行的衔接提供了一种前景广阔的新途径。