Abstract not available.
本工作介绍了HoloBrain-0,这是一个全面的视觉-语言-动作(VLA)框架,旨在弥合基础模型研究与可靠现实世界机器人部署之间的鸿沟。我们系统的核心是一种新颖的VLA架构,该架构明确整合了机器人本体先验知识,包括多视角相机参数和运动学描述(URDF),以增强三维空间推理能力并支持多样化的机器人本体。我们通过可扩展的“预训练后微调”范式验证了这一设计,在RoboTwin 2.0、LIBERO和GenieSim等仿真基准测试中取得了最先进的结果,同时在具有挑战性的长时程现实世界操作任务中也表现出色。值得注意的是,我们高效的0.2B参数变体可与规模显著更大的基线模型相媲美,实现了低延迟的端侧部署。为进一步加速研究和实际应用,我们完全开源了完整的HoloBrain生态系统,包括:(1)强大的预训练VLA基础模型;(2)针对多个仿真套件和现实世界任务的微调检查点;以及(3)RoboOrchard,一个用于数据管理、模型训练和部署的全栈VLA基础设施。结合标准化的数据收集协议,此次发布为研究社区提供了一条完整、可复现的实现高性能机器人操作的路径。