Abstract not available.
机器人模仿数据通常具有多模态特性:相似的视觉-语言观测可能对应不同的动作片段,因为人类示范者会依据不同的短时意图、任务阶段或近期上下文采取行动。现有的基于帧条件的VLA策略仅从当前观测和指令推断每个动作片段,因此在部分可观测性下,它们可能在不同重规划步骤间重新采样不同的意图,导致片段间冲突和执行不稳定。我们提出IntentVLA,一种历史条件化的VLA框架,它将近期视觉观测编码为紧凑的短时意图表示,并以此作为条件生成动作片段。我们进一步引入AliasBench,一个基于RoboTwin2的12任务歧义感知基准,包含匹配的训练数据和评估环境,以隔离短时观测别名化问题。在AliasBench、SimplerEnv、LIBERO和RoboCasa上,IntentVLA提升了 rollout 稳定性,并超越了强大的VLA基线方法。