Abstract not available.
视觉语言模型(VLM)已展现出卓越的通用推理能力。然而,其在具身导航中的表现仍受限于对齐的开放世界视觉与机器人控制数据的匮乏。尽管模拟器为数据收集提供了经济高效的替代方案,但对逼真视觉模拟的内在依赖往往限制了所学策略的迁移性。为此,我们提出 extbf{ extit{沙盒-抽象基础经验}}( extbf{ extit{SAGE}})框架,该框架使智能体能够在基于物理的语义抽象空间中学习,而非在逼真视觉模拟中,模仿人类在执行前在简化物理抽象中预演计划的心理模拟能力。 extit{SAGE}系统通过三个协同阶段运行:(1) extit{创世}:构建多样化的、受物理约束的语义环境以引导经验;(2) extit{进化}:通过强化学习(RL)蒸馏经验,利用新颖的非对称自适应裁剪机制稳定更新;(3) extit{导航}:将抽象策略桥接至开放世界控制。我们证明, extit{SAGE}显著改进了基于规划器的具身导航,在A-EQA任务上实现了53.21%的LLM-Match成功(相比基线提升9.7%),并展现出向物理室内机器人部署的迁移潜力。