Abstract not available.
视觉-语言-动作(VLA)模型为通用机器人智能带来了巨大潜力,然而此类模型的规模化扩展严重受限于标注训练数据的高昂获取成本。幸运的是,部署于各领域的视觉机器人已产生大量可资利用的视觉-动作对,这些数据能够更高效地支撑VLA规模化训练。然而,这些原始数据因多重约束无法集中聚合,且呈现出显著异质性。为应对上述挑战,本文提出ForgeVLA——一种联邦式VLA训练框架,无需集中原始数据或人工标注即能从分布式视觉-动作对中学习VLA模型。具体而言,ForgeVLA中每个客户端配备一个具身指令分类器,可将视觉-动作对映射至预定义指令集,从而恢复缺失的语言模态,形成完整的视觉-语言-动作三元组。除三元组构建外,本文还识别出视觉-语言特征坍缩这一关键挑战,该问题在先前联邦VLA研究中被严重忽视。为缓解此问题,ForgeVLA将客户端侧对比规划损失与服务器侧自适应聚合策略相结合,以高效学习任务判别性表征。跨多个基准测试的广泛实验表明,ForgeVLA显著优于其他基线方法,消融研究进一步验证了各组件的贡献。