HoloBrain-0 Technical Report<br>HoloBrain-0技术报告<br>[摘要](abstracts/2602.12062.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本工作介绍了HoloBrain-0，这是一个全面的视觉-语言-动作（VLA）框架，旨在弥合基础模型研究与可靠现实世界机器人部署之间的鸿沟。我们系统的核心是一种新颖的VLA架构，该架构明确整合了机器人本体先验知识，包括多视角相机参数和运动学描述（URDF），以增强三维空间推理能力并支持多样化的机器人本体。我们通过可扩展的“预训练后微调”范式验证了这一设计，在RoboTwin 2.0、LIBERO和GenieSim等仿真基准测试中取得了最先进的结果，同时在具有挑战性的长时程现实世界操作任务中也表现出色。值得注意的是，我们高效的0.2B参数变体可与规模显著更大的基线模型相媲美，实现了低延迟的端侧部署。为进一步加速研究和实际应用，我们完全开源了完整的HoloBrain生态系统，包括：（1）强大的预训练VLA基础模型；（2）针对多个仿真套件和现实世界任务的微调检查点；以及（3）RoboOrchard，一个用于数据管理、模型训练和部署的全栈VLA基础设施。结合标准化的数据收集协议，此次发布为研究社区提供了一条完整、可复现的实现高性能机器人操作的路径。

← Back