RLDX-1 Technical Report<br>RLDX-1技术报告<br>[摘要](abstracts/2605.03269.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作模型（VLA）凭借从预训练视觉-语言模型中继承的通用智能（如广泛的场景理解与语言条件泛化），在实现类人通用机器人策略方面取得了显著进展，但它们在处理需要更广泛功能能力（如运动感知、记忆感知决策与物理传感）的复杂现实任务时仍存在困难。为解决这一问题，我们提出了RLDX-1，一种基于多流动作Transformer（MSAT）的通用灵巧操作机器人策略。MSAT通过模态特定流与跨模态联合自注意力机制，整合异构模态，统一了上述能力。RLDX-1进一步将该架构与系统级设计相结合，包括为稀有操作场景合成训练数据、专门针对类人操作的训练流程，以及面向实时部署的推理优化。通过实证评估，我们证明RLDX-1在模拟基准测试和需要超越通用性的广泛功能能力的现实任务中，始终优于近期前沿VLA模型（如π₀.₅和GR00T N1.6）。特别是在ALLEX人形机器人任务中，RLDX-1以86.8%的成功率表现出优越性，而π₀.₅和GR00T N1.6的成功率约为40%，这凸显了RLDX-1在高自由度人形机器人上应对多样化功能需求的能力。这些结果共同表明，RLDX-1是迈向面向复杂、高接触、动态现实灵巧操作的可靠VLA模型的有希望的一步。

← Back