ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration<br>ROSClaw：一种面向异构多智能体协作的分层语义-物理框架<br>[摘要](abstracts/2604.04664.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型语言模型（LLMs）与具身智能体的结合提升了高层推理能力，但语义理解与物理执行之间仍存在关键鸿沟。尽管视觉-语言-动作（VLA）和视觉-语言-导航（VLN）系统使机器人能够根据自然语言指令执行操作与导航任务，它们在处理长时程、顺序化及时间结构化的任务时仍面临困难。现有框架通常采用模块化流程进行数据收集、技能训练和策略部署，导致实验验证与策略优化的成本高昂。为应对这些局限，我们提出了ROSClaw，一个面向异构机器人的智能体框架，将策略学习与任务执行集成于统一的视觉-语言模型（VLM）控制器中。该框架利用异构机器人的e-URDF表示作为物理约束，构建了从仿真到现实的拓扑映射，实现了对仿真和现实世界中智能体物理状态的实时访问。我们进一步引入了数据收集与状态积累机制，在真实世界执行过程中存储机器人状态、多模态观测和执行轨迹，以支持后续的迭代策略优化。在部署阶段，统一智能体维持推理与执行间的语义连续性，并动态地将任务特定控制分配给不同智能体，从而提升多策略执行的鲁棒性。通过建立自主闭环框架，ROSClaw最小化了对机器人专用开发流程的依赖。该框架支持硬件级验证、自动化生成SDK级控制程序以及基于工具的执行，实现了机器人技能的快速跨平台迁移与持续改进。项目页面：https://www.rosclaw.io/。

← Back