Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision<br>通过合成神经符号监督从视觉语言模型中学习结构化机器人策略<br>[摘要](abstracts/2604.02812.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）最近在将多模态观察映射到机器人行为方面展现出强大能力。然而，当前大多数方法依赖于端到端的视觉运动策略，这些策略仍不透明且难以分析，限制了其在安全关键型机器人应用中的使用。相比之下，经典机器人系统通常依赖结构化策略表示，以提供可解释性、模块化和反应式执行。本研究探讨了基础模型如何专门化，以生成基于多模态感知的结构化机器人策略，从而桥接高维学习与符号控制。我们提出一种神经符号方法，其中VLM从视觉观察、自然语言指令和结构化系统规范中合成可执行的行为树策略。为实现无需手动标注的可扩展监督，我们引入了一个自动化流程，该流程生成一个合成多模态数据集，包含领域随机化场景与由基础模型生成的指令-策略示例配对。在两个机器人操纵器上的真实世界实验表明，完全从合成监督中学习到的结构化策略能成功迁移到物理系统。结果表明，基础模型可被适配以产生可解释和结构化的机器人策略，为多模态机器人决策提供了一种替代不透明端到端方法的选择。

← Back