MolmoAct2: Action Reasoning Models for Real-world Deployment<br>MolmoAct2:面向现实部署的动作推理模型<br>[摘要](abstracts/2605.02881.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型旨在为机器人提供通用的单一控制器,但当前的系统在现实部署的关键标准上仍存在不足。前沿模型封闭,开源替代方案受限于昂贵的硬件,增强推理的策略因延迟过高而影响其接地能力,且微调后的成功率仍低于可靠使用的阈值。我们提出了MolmoAct2,一个完全开放的动作推理模型,专为实际部署而设计,并在五个方面对其前身进行了改进。我们引入了MolmoER,一个专门用于空间和具身推理的VLM骨干网络,通过“专精-排练”策略在330万样本语料库上训练。我们发布三个新的数据集,涵盖低到中成本平台,包括MolmoAct2-BimanualYAM(720小时遥操作双手轨迹,是迄今最大的开放双手数据集),以及经过质量筛选的Franka(DROID)和SO100/101子集。我们提供了OpenFAST,一个开权重、开数据的动作分词器,在五种具身形态的数百万条轨迹上训练。我们重新设计了架构,通过逐层KV缓存条件将流匹配连续动作专家嫁接于离散标记VLM之上。最后,我们提出了MolmoThink,一种自适应深度推理变体,仅重新预测时间步之间场景区域发生变化的深度标记,以先前延迟的一小部分保留几何接地性。在涵盖7个模拟和现实基准测试的任何开源VLA的最广泛实证研究中,MolmoAct2优于包括Pi-05在内的强基线,而MolmoER在13个具身推理基准测试上超越了GPT-5和Gemini Robotics ER-1.5。我们发布了模型权重、训练代码和完整训练数据。项目页面:https://allenai.org/blog/molmoact2

← Back