HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System<br>HiVLA：一种以视觉定位为中心的分层具身操作系统<br>[摘要](abstracts/2604.14125.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管端到端的视觉-语言-动作（VLA）模型为机器人操作提供了有前景的范式，但在狭窄的控制数据上进行微调往往会损害其从基础视觉-语言模型（VLM）继承的深层推理能力。为解决这一根本性权衡，我们提出了HiVLA，一种以视觉定位为中心的分层框架，明确将高层语义规划与低层运动控制解耦。在高层部分，VLM规划器首先执行任务分解和视觉定位，生成结构化计划，包括子任务指令和精确的目标边界框。然后，为将此计划转化为物理动作，我们在低层部分引入了配备新型级联交叉注意力机制的流匹配扩散变换器（DiT）动作专家。该设计依次融合全局上下文、高分辨率以物体为中心的裁剪图像和技能语义，使DiT能够专注于鲁棒执行。我们的解耦架构保留了VLM的零样本推理能力，同时允许两个组件独立改进。在仿真和真实世界中的大量实验表明，HiVLA显著优于最先进的端到端基线方法，尤其在长时程技能组合和杂乱场景中小物体的精细操作方面表现卓越。

← Back