Abstract not available.
大型语言模型(LLMs)与具身智能体的结合提升了高层推理能力,但语义理解与物理执行之间仍存在关键鸿沟。尽管视觉-语言-动作(VLA)和视觉-语言-导航(VLN)系统使机器人能够根据自然语言指令执行操作与导航任务,它们在处理长时程、顺序化及时间结构化的任务时仍面临困难。现有框架通常采用模块化流程进行数据收集、技能训练和策略部署,导致实验验证与策略优化的成本高昂。为应对这些局限,我们提出了ROSClaw,一个面向异构机器人的智能体框架,将策略学习与任务执行集成于统一的视觉-语言模型(VLM)控制器中。该框架利用异构机器人的e-URDF表示作为物理约束,构建了从仿真到现实的拓扑映射,实现了对仿真和现实世界中智能体物理状态的实时访问。我们进一步引入了数据收集与状态积累机制,在真实世界执行过程中存储机器人状态、多模态观测和执行轨迹,以支持后续的迭代策略优化。在部署阶段,统一智能体维持推理与执行间的语义连续性,并动态地将任务特定控制分配给不同智能体,从而提升多策略执行的鲁棒性。通过建立自主闭环框架,ROSClaw最小化了对机器人专用开发流程的依赖。该框架支持硬件级验证、自动化生成SDK级控制程序以及基于工具的执行,实现了机器人技能的快速跨平台迁移与持续改进。项目页面:https://www.rosclaw.io/。