IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation<br>IntentVLA：面向别名化机器人操作的短时意图建模<br>[摘要](abstracts/2605.14712.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人模仿数据通常具有多模态特性：相似的视觉-语言观测可能对应不同的动作片段，因为人类示范者会依据不同的短时意图、任务阶段或近期上下文采取行动。现有的基于帧条件的VLA策略仅从当前观测和指令推断每个动作片段，因此在部分可观测性下，它们可能在不同重规划步骤间重新采样不同的意图，导致片段间冲突和执行不稳定。我们提出IntentVLA，一种历史条件化的VLA框架，它将近期视觉观测编码为紧凑的短时意图表示，并以此作为条件生成动作片段。我们进一步引入AliasBench，一个基于RoboTwin2的12任务歧义感知基准，包含匹配的训练数据和评估环境，以隔离短时观测别名化问题。在AliasBench、SimplerEnv、LIBERO和RoboCasa上，IntentVLA提升了 rollout 稳定性，并超越了强大的VLA基线方法。

← Back