Abstract not available.
现实世界中的人类行为自然编码了丰富、长期的上下文信息,可用于训练具身智能体进行感知、理解与行动。然而,现有的捕捉系统通常依赖昂贵的演播室设置和可穿戴设备,限制了野外场景条件下大规模人体运动数据的采集。为解决此问题,我们提出EmbodMocap——一种使用两部移动iPhone的便携、经济型数据采集流程。其核心思想是通过联合标定双RGB-D序列,在统一的度量世界坐标系中重建人体与场景。该方法无需静态相机或标记物,即可在日常环境中实现度量尺度且场景一致的捕捉,无缝衔接人体运动与场景几何。与光学捕捉真值对比表明,双视角设置展现出显著缓解深度模糊的能力,在人体对齐与重建性能上优于单iPhone或单目模型。基于采集的数据,我们赋能了三项具身人工智能任务:单目人-场景重建——通过微调前馈模型输出度量尺度、世界空间对齐的人体与场景;基于物理的角色动画——证明数据可用于扩展人-物交互技能与场景感知运动追踪;机器人运动控制——通过仿真到现实的强化学习训练人形机器人复现视频中的人类动作。实验结果验证了本流程的有效性及其对推动具身人工智能研究的贡献。