RLDX-1 Technical Report<br>RLDX-1技术报告<br>[摘要](abstracts/2605.03269.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作模型(VLA)凭借从预训练视觉-语言模型中继承的通用智能(如广泛的场景理解与语言条件泛化),在实现类人通用机器人策略方面取得了显著进展,但它们在处理需要更广泛功能能力(如运动感知、记忆感知决策与物理传感)的复杂现实任务时仍存在困难。为解决这一问题,我们提出了RLDX-1,一种基于多流动作Transformer(MSAT)的通用灵巧操作机器人策略。MSAT通过模态特定流与跨模态联合自注意力机制,整合异构模态,统一了上述能力。RLDX-1进一步将该架构与系统级设计相结合,包括为稀有操作场景合成训练数据、专门针对类人操作的训练流程,以及面向实时部署的推理优化。通过实证评估,我们证明RLDX-1在模拟基准测试和需要超越通用性的广泛功能能力的现实任务中,始终优于近期前沿VLA模型(如π₀.₅和GR00T N1.6)。特别是在ALLEX人形机器人任务中,RLDX-1以86.8%的成功率表现出优越性,而π₀.₅和GR00T N1.6的成功率约为40%,这凸显了RLDX-1在高自由度人形机器人上应对多样化功能需求的能力。这些结果共同表明,RLDX-1是迈向面向复杂、高接触、动态现实灵巧操作的可靠VLA模型的有希望的一步。

← Back