Abstract not available.
视觉-语言-动作(VLA)模型常使用中间表征连接多模态输入与连续控制,但空间引导通常通过隐式潜在特征注入。我们提出CorridorVLA,该方法预测稀疏空间锚点作为增量物理变化(如Δ-位置),并在动作生成的训练目标中利用这些锚点施加显式容差区域。这些锚点定义了一个“走廊”,用于引导流匹配动作头:空间演化超出该走廊的轨迹将收到矫正梯度,同时允许接触与执行噪声导致的微小偏差。在更具挑战性的LIBERO-Plus基准测试中,CorridorVLA在SmolVLA和GR00T上均取得一致提升,相较对应基线成功率提高3.4%–12.4%;值得注意的是,我们的GR00T-Corr变体达到了83.21%的成功率。这些结果表明,与动作对齐的物理线索能为生成式动作策略提供直接且可解释的约束,从而补充视觉或隐式形式编码的空间引导。代码已开源:https://github.com/corridorVLA。