BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation<br>BagelVLA：通过交错视觉-语言-动作生成增强长时程操作能力<br>[摘要](abstracts/2602.09849.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

为具身智能体赋予任务推理、物理结果预见和精确动作生成的能力，是实现通用操作的关键。尽管近期的视觉-语言-动作模型已利用预训练基础模型，但它们通常孤立地关注语言规划或视觉预测，很少同时整合这两种能力来指导动作生成，导致在复杂长时程操作任务中表现欠佳。为弥补这一不足，我们提出了BagelVLA，一个在统一框架内集成语言规划、视觉预测和动作生成的模型。该模型基于预训练的统一理解与生成模型初始化，通过训练将文本推理和视觉预测直接交错融入动作执行循环中。为高效耦合这些模态，我们引入了残差流引导技术，该技术从当前观测初始化，并利用单步去噪提取预测性视觉特征，以极低延迟指导动作生成。大量实验表明，BagelVLA在多个模拟和真实世界基准测试中显著优于现有基线方法，尤其在需要多阶段推理的任务中表现突出。

← Back