Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision<br>通过合成神经符号监督从视觉语言模型中学习结构化机器人策略<br>[摘要](abstracts/2604.02812.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)最近在将多模态观察映射到机器人行为方面展现出强大能力。然而,当前大多数方法依赖于端到端的视觉运动策略,这些策略仍不透明且难以分析,限制了其在安全关键型机器人应用中的使用。相比之下,经典机器人系统通常依赖结构化策略表示,以提供可解释性、模块化和反应式执行。本研究探讨了基础模型如何专门化,以生成基于多模态感知的结构化机器人策略,从而桥接高维学习与符号控制。我们提出一种神经符号方法,其中VLM从视觉观察、自然语言指令和结构化系统规范中合成可执行的行为树策略。为实现无需手动标注的可扩展监督,我们引入了一个自动化流程,该流程生成一个合成多模态数据集,包含领域随机化场景与由基础模型生成的指令-策略示例配对。在两个机器人操纵器上的真实世界实验表明,完全从合成监督中学习到的结构化策略能成功迁移到物理系统。结果表明,基础模型可被适配以产生可解释和结构化的机器人策略,为多模态机器人决策提供了一种替代不透明端到端方法的选择。

← Back