EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models<br>EgoActor：通过视觉语言模型将任务规划落地为具身机器人的空间感知自我中心动作<br>[摘要](abstracts/2602.04515.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在现实世界中部署具身机器人面临根本性挑战，因为它需要在部分信息观测和动态变化的环境下，紧密整合感知、移动和操作能力，并能在不同类型子任务间稳健切换。为应对这些挑战，我们提出一项新颖任务——EgoActing，要求将高层指令直接转化为多样、精确且具备空间感知的机器人动作。我们进一步通过引入EgoActor来实例化该任务，这是一个统一且可扩展的视觉语言模型，能够实时协调感知与执行，预测移动基元（如行走、转向、侧移、高度调整）、头部运动、操作指令以及人机交互动作。我们利用来自真实世界演示的纯RGB自我中心视角数据、空间推理问答以及仿真环境演示的广泛监督，使EgoActor能够做出稳健的情境感知决策，并以8B和4B参数模型实现流畅的动作推断（耗时低于1秒）。在仿真和真实环境中的大量评估表明，EgoActor有效桥接了抽象任务规划与具体运动执行，并能泛化至多样化任务及未见过的环境。

← Back