ActionReasoning: Robot Action Reasoning in 3D Space with LLM for Robotic Brick Stacking<br>行动推理：基于大语言模型的机器人三维空间动作推理与砖块堆叠应用<br>[摘要](abstracts/2602.21161.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

传统机器人系统通常依赖为受限环境定制的规划器。尽管在受限场景中有效，这些系统缺乏泛化能力，限制了具身人工智能与通用机器人的可扩展性。近期数据驱动的视觉-语言-动作方法旨在从大规模仿真与现实数据中学习策略。然而，物理世界的连续动作空间远超语言符号的表征能力，仅靠数据扩展能否实现通用机器人智能尚不明确。为填补这一空白，我们提出ActionReasoning，一种基于大语言模型的框架，通过显式动作推理生成物理一致、先验引导的机器人操作决策。该框架利用大语言模型中已编码的物理先验与现实世界知识，并将其组织于多智能体架构中。我们在砖块堆叠这一可验证案例中实例化该框架，假设环境状态已精确测量。环境状态经序列化后输入多智能体大语言模型框架，生成具备物理感知的动作规划。实验表明，所提出的多智能体大语言模型框架能实现稳定的砖块放置，同时将工作重心从底层领域特定编码转向高层工具调用与提示设计，凸显了其广泛泛化的潜力。本研究通过将物理推理与大语言模型相结合，为机器人操作中感知与执行的衔接提供了一种前景广阔的新途径。

← Back