Abstract not available.
利用大语言模型进行机器人操作任务规划是一个新兴领域。现有方法通常依赖专用模型、微调或提示调整,并以开环方式运行,缺乏鲁棒的环境反馈,导致其在动态环境中表现脆弱。本文提出MALLVi,一种多智能体大语言与视觉框架,实现了基于闭环反馈驱动的机器人操作。给定自然语言指令和环境图像,MALLVi为机器人操作器生成可执行的原子动作。动作执行后,视觉语言模型评估环境反馈,并决定重复该过程或进入下一步。MALLVi并非使用单一模型,而是协调分解器、定位器、思考器和反思器等多个专用智能体,分别处理感知、定位、推理和高级规划。可选的描述器智能体提供初始状态的视觉记忆。反思器通过仅重新激活相关智能体来支持针对性错误检测与恢复,避免了完全重新规划。仿真和真实环境实验表明,迭代式闭环多智能体协调提升了零样本操作任务的泛化能力与成功率。代码发布于https://github.com/iman1234ahmadi/MALLVI。