KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition<br>KineVLA：通过双层动作分解实现运动学感知的视觉-语言-动作模型<br>[摘要](abstracts/2603.17524.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文提出了一种新颖的运动学密集型视觉-语言-动作任务，其中语言指令从起始到完成的关键时刻密集编码了多样化的运动学属性（如方向、轨迹、朝向和相对位移），与现有仅粗略或部分捕捉运动学的动作指令不同，从而支持细粒度和个性化的操控。在此设定下，任务目标保持不变，而执行轨迹必须适应指令级的运动学规范。为应对这一挑战，我们提出了KineVLA，这是一个视觉-语言-动作框架，通过双层动作表示和双层推理令牌，将目标级的不变性与运动学级的可变性显式解耦，作为对齐语言和动作的显式、有监督的中间变量。为支持此任务，我们构建了涵盖仿真和真实机器人平台的运动学感知VLA数据集，包含指令级运动学变化和双层标注。在LIBERO和Realman-75机器人上的大量实验表明，KineVLA在运动学敏感基准测试中持续优于强VLA基线，实现了更精确、可控和可泛化的操控行为。

← Back