AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act<br>AgenticLab：一个能够观察、思考与行动的真实世界机器人智能体平台<br>[摘要](abstracts/2602.01662.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来，大型视觉语言模型（VLMs）在泛化性开放词汇感知与推理方面取得了显著进展，然而其在非结构化、真实世界环境中执行长时程、闭环操作的实际机器人操控能力仍不明确。现有的基于VLM的操控流程难以在不同研究团队的实验设置间进行比较，且多数评估依赖于仿真环境、特权状态或专门设计的实验条件。本文提出AgenticLab，一个模型无关的机器人智能体平台与开放世界操控基准。AgenticLab提供了一套闭环智能体流程，涵盖感知、任务分解、在线验证与重规划。借助AgenticLab，我们在非结构化环境中的真实机器人任务上对当前最先进的基于VLM的智能体进行了基准测试。我们的基准揭示了一系列离线视觉语言测试（如视觉问答与静态图像理解）未能捕捉的故障模式，包括多步语义落地一致性失效、遮挡与场景变化下的物体定位困难，以及空间推理能力不足以支持可靠操控等问题。我们将发布完整的硬件与软件栈，以支持可复现的评估，并加速通用机器人智能体的研究进程。

← Back