Abstract not available.
人类行为是学习物理智能最具扩展性的数据来源之一,然而如何有效利用其实现灵巧操作仍不明确。尽管先前研究在受限环境中展示了人类到机器人的技能迁移,但大规模人类数据能否支持精细、高自由度的灵巧操作尚存疑问。我们提出EgoScale,一个基于大规模自我中心人类数据的人类到灵巧操作迁移框架。我们在超过20,854小时带有动作标注的自我中心人类视频上训练了一个视觉-语言-动作模型,数据规模是先前工作的20倍以上,并揭示了人类数据规模与验证损失之间的对数线性扩展规律。该验证损失与下游真实机器人性能强相关,从而确立大规模人类数据作为可预测的监督来源。除规模外,我们引入了一个简单的两阶段迁移方案:大规模人类预训练后接轻量级的人类-机器人对齐中期训练。这实现了强大的长时程灵巧操作能力,并能以极少的机器人监督进行单次任务适应。我们的最终策略在使用22自由度灵巧机械手时,相比无预训练基线平均成功率提升54%,并能有效迁移至低自由度机械手,表明大规模人类运动数据提供了一个可重用、与具体形态无关的运动先验。