Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study<br>显式物理可行性是否有助于视觉语言动作模型学习？一项实证研究<br>[摘要](abstracts/2604.17896.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型将多模态输入直接映射为机器人动作，通常通过大规模模仿学习进行训练。尽管这一范式已展现出强大的性能，但主流的VLA训练过程并未显式监督硬性物理约束，如避障或运动学可行性。因此，物理可行行为背后的几何结构必须仅从演示中隐式推断。本文探讨引入显式可行性监督能否为VLA策略提供有效的结构化指导。我们提出了一种简单的基于几何的可行性目标，并将其整合到基于扩散的VLA策略的训练阶段中。为系统评估这一思路，我们以障碍物感知操作为受控实验，探究几何依赖的物理可行性。实证结果表明，在VLA训练中增加可行性监督不仅提高了物理可靠性和整体任务性能，还在低数据条件下增强了学习效率。这些发现表明，显式可行性信号能有效补充基于模仿的VLA学习，凸显了其在开发更可靠VLA策略方面的潜力。

← Back