MolmoAct2: Action Reasoning Models for Real-world Deployment<br>MolmoAct2：面向现实部署的动作推理模型<br>[摘要](abstracts/2605.02881.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型旨在为机器人提供通用的单一控制器，但当前的系统在现实部署的关键标准上仍存在不足。前沿模型封闭，开源替代方案受限于昂贵的硬件，增强推理的策略因延迟过高而影响其接地能力，且微调后的成功率仍低于可靠使用的阈值。我们提出了MolmoAct2，一个完全开放的动作推理模型，专为实际部署而设计，并在五个方面对其前身进行了改进。我们引入了MolmoER，一个专门用于空间和具身推理的VLM骨干网络，通过“专精-排练”策略在330万样本语料库上训练。我们发布三个新的数据集，涵盖低到中成本平台，包括MolmoAct2-BimanualYAM（720小时遥操作双手轨迹，是迄今最大的开放双手数据集），以及经过质量筛选的Franka（DROID）和SO100/101子集。我们提供了OpenFAST，一个开权重、开数据的动作分词器，在五种具身形态的数百万条轨迹上训练。我们重新设计了架构，通过逐层KV缓存条件将流匹配连续动作专家嫁接于离散标记VLM之上。最后，我们提出了MolmoThink，一种自适应深度推理变体，仅重新预测时间步之间场景区域发生变化的深度标记，以先前延迟的一小部分保留几何接地性。在涵盖7个模拟和现实基准测试的任何开源VLA的最广泛实证研究中，MolmoAct2优于包括Pi-05在内的强基线，而MolmoER在13个具身推理基准测试上超越了GPT-5和Gemini Robotics ER-1.5。我们发布了模型权重、训练代码和完整训练数据。项目页面：https://allenai.org/blog/molmoact2

← Back