HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning<br>HALO：面向具身多模态思维链推理的统一视觉-语言-动作模型<br>[摘要](abstracts/2602.21157.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型在机器人操作任务中展现出强大性能，但在长时程或分布外场景中常因缺乏显式的多模态推理机制以及对动作引发世界状态演变的预判能力而表现不佳。近期研究尝试在VLA模型中引入文本思维链或视觉子目标预测以增强推理能力，但仍未能构建一个统一的人类式推理框架，实现文本推理、视觉前瞻与动作预测的协同。为此，我们提出HALO模型，通过文本任务推理、细粒度视觉子目标预测及增强型具身多模态思维链（EM-CoT）动作预测的序列化流程，构建了支持具身多模态思维链推理的统一VLA架构。我们采用混合专家Transformer（MoT）结构实例化HALO，将语义推理、视觉前瞻与动作预测解耦为专业化专家模块，同时实现跨专家的无缝协作。为支持大规模训练，我们设计了自动化流水线合成EM-CoT训练数据，并构建了精细化的训练方案。大量实验表明：（1）HALO在仿真与真实环境中均取得卓越性能，在RoboTwin基准上超越基线策略π_0达34.1%；（2）训练方案与EM-CoT设计的所有组件均能有效提升任务成功率；（3）通过EM-CoT推理机制，HALO在极端未见过环境随机化条件下展现出强大的泛化能力。

← Back