NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models<br>NS-VLA：迈向神经符号视觉-语言-动作模型<br>[摘要](abstracts/2603.09542.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型旨在将指令基于视觉上下文进行接地，并为机器人操作生成动作序列。尽管近期取得进展，VLA模型仍面临挑战：学习相关且可重用的基元、减少对大规模数据和复杂架构的依赖，以及实现超越演示的探索。为应对这些挑战，我们提出了一种新颖的神经符号视觉-语言-动作（NS-VLA）框架，通过在线强化学习（RL）实现。该框架引入符号编码器来嵌入视觉和语言特征并提取结构化基元，利用符号求解器实现数据高效的动作序列生成，并借助在线RL通过广泛探索优化生成过程。在机器人操作基准测试上的实验表明，NS-VLA在单次训练和数据扰动设置下均优于先前方法，同时展现出卓越的零样本泛化能力、高数据效率和扩展的探索空间。我们的代码已开源。

← Back