Abstract not available.
大型基础模型已在视觉和语言领域展现出对复杂问题的强大开放世界泛化能力,但机器人学中尚未实现类似水平的泛化。一个根本性挑战在于这些模型表现出有限的零样本能力,这阻碍了它们有效泛化至未见场景。本研究提出GeneralVLA(具备知识引导轨迹规划的通用视觉-语言-动作模型),这是一种分层视觉-语言-动作模型,能更有效地利用基础模型的泛化能力,实现零样本操控并自动生成机器人学数据。具体而言,我们研究一类分层VLA模型:高层ASM(可供性分割模块)经微调后感知场景的图像关键点可供性;中层3DAgent执行任务理解、技能知识与轨迹规划,生成指示期望机器人末端执行器轨迹的三维路径。该中间三维路径预测随后作为低层三维感知控制策略的引导,实现精确操控。相较于其他方法,我们的方法无需真实世界机器人数据收集或人工示范,使其能更高效地扩展至多样化任务与视角。实验表明,GeneralVLA成功为14项任务生成轨迹,显著优于VoxPoser等先进方法。所生成的示范数据训练出的行为克隆策略,比基于人工示范或VoxPoser、Scaling-up、Code-As-Policies生成数据训练的策略更具鲁棒性。我们相信GeneralVLA可成为兼具机器人数据生成与零样本场景下解决新任务能力的可扩展方法。代码:https://github.com/AIGeeksGroup/GeneralVLA。项目网站:https://aigeeksgroup.github.io/GeneralVLA。