ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation<br>ABot-N0：面向通用具身导航的视觉-语言-动作基础模型技术报告<br>[摘要](abstracts/2602.11598.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

具身导航领域长期受限于任务专用架构的碎片化问题。本文提出ABot-N0——一个统一的视觉-语言-动作基础模型，实现了点目标导航、物体目标导航、指令跟随、兴趣点目标导航及人员跟随这五大核心任务的“大一统”。该模型采用分层式“大脑-动作”架构，将基于大语言模型的认知大脑（负责语义推理）与基于流匹配的动作专家（生成精确连续轨迹）相结合。为支撑大规模学习，我们开发了ABot-N0数据引擎，在7,802个高保真3D场景（总面积10.7平方公里）中构建了1,690万条专家轨迹与500万条推理样本。ABot-N0在7项基准测试中均刷新了最高性能记录，显著超越各类专用模型。此外，我们研发的智能导航系统通过规划器与分层拓扑记忆的融合，实现了动态真实环境中鲁棒的长时程任务执行。

← Back