From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models<br>从推理效率到具身效率:重新审视视觉-语言-动作模型的效率指标<br>[摘要](abstracts/2603.19131.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型通过联合推理视觉、语言和运动模态,使具身智能体能够执行日益复杂的任务。然而,我们发现当前VLA研究中普遍采用的“效率”概念——以参数量、浮点运算次数或令牌解码吞吐量为特征——并不能反映在机器人平台上的实际性能。在现实世界执行中,效率由系统级具身行为决定,如任务完成时间、轨迹平滑度、累积关节旋转和运动能耗。通过对模型压缩、令牌稀疏化和动作序列压缩的对照研究,我们得出了几点挑战常见假设的观察:(1)在传统指标下减少计算的方法,尽管保持任务成功率,却常常增加端到端执行成本或降低运动质量。(2)系统级具身效率指标揭示了学习动作策略中隐藏的性能差异,这些差异在传统评估中无法显现。(3)常见的适应方法(如上下文提示或监督微调)在具身效率方面仅显示出轻微且指标特定的改进。虽然这些方法可以减少目标具身效率指标(如急动度或动作速率),但由此带来的增益可能以其他指标(如更长的完成时间)为代价。综上所述,我们的结果表明,传统的推理效率指标可能忽略了具身执行的重要方面。纳入具身效率能更全面地评估策略行为和实践性能,从而实现更公平、更全面的VLA模型比较。

← Back