Abstract not available.
近年来,大型视觉语言模型(VLMs)在泛化性开放词汇感知与推理方面取得了显著进展,然而其在非结构化、真实世界环境中执行长时程、闭环操作的实际机器人操控能力仍不明确。现有的基于VLM的操控流程难以在不同研究团队的实验设置间进行比较,且多数评估依赖于仿真环境、特权状态或专门设计的实验条件。本文提出AgenticLab,一个模型无关的机器人智能体平台与开放世界操控基准。AgenticLab提供了一套闭环智能体流程,涵盖感知、任务分解、在线验证与重规划。借助AgenticLab,我们在非结构化环境中的真实机器人任务上对当前最先进的基于VLM的智能体进行了基准测试。我们的基准揭示了一系列离线视觉语言测试(如视觉问答与静态图像理解)未能捕捉的故障模式,包括多步语义落地一致性失效、遮挡与场景变化下的物体定位困难,以及空间推理能力不足以支持可靠操控等问题。我们将发布完整的硬件与软件栈,以支持可复现的评估,并加速通用机器人智能体的研究进程。