ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation<br>ABot-N0:面向通用具身导航的视觉-语言-动作基础模型技术报告<br>[摘要](abstracts/2602.11598.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

具身导航领域长期受限于任务专用架构的碎片化问题。本文提出ABot-N0——一个统一的视觉-语言-动作基础模型,实现了点目标导航、物体目标导航、指令跟随、兴趣点目标导航及人员跟随这五大核心任务的“大一统”。该模型采用分层式“大脑-动作”架构,将基于大语言模型的认知大脑(负责语义推理)与基于流匹配的动作专家(生成精确连续轨迹)相结合。为支撑大规模学习,我们开发了ABot-N0数据引擎,在7,802个高保真3D场景(总面积10.7平方公里)中构建了1,690万条专家轨迹与500万条推理样本。ABot-N0在7项基准测试中均刷新了最高性能记录,显著超越各类专用模型。此外,我们研发的智能导航系统通过规划器与分层拓扑记忆的融合,实现了动态真实环境中鲁棒的长时程任务执行。

← Back