Abstract not available.
近期视觉语言模型(VLMs)的进展显示出实现人类水平具身智能的潜力。然而,现有针对VLM驱动的具身智能体的基准测试通常依赖于高层指令或离散化的动作空间,这些非原生设定与现实世界的控制方式存在显著差异。此外,当前基准主要关注高层任务,缺乏在低层与高层之间的联合评估与分析。为应对这些局限,我们提出了NativeEmbodied,这是一个针对VLM驱动具身智能体的挑战性基准,采用统一的、原生低层动作空间。基于多样化的模拟场景构建,NativeEmbodied包含三个复杂场景中的代表性高层任务,以评估整体性能。为进行更细致的分析,我们进一步解耦了复杂任务所需的技能,并构建了四类低层任务,每类针对一项基础具身技能。这种跨任务与技能粒度的联合评估,使得对具身智能体的精细化评估成为可能。通过对前沿VLM的实验,我们发现了其在多项基础具身技能上的明显不足,进一步分析表明这些瓶颈显著限制了其在高层任务上的表现。NativeEmbodied揭示了当前VLM驱动具身智能体面临的关键挑战,并为未来研究提供了指导性见解。