From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models<br>从推理效率到具身效率：重新审视视觉-语言-动作模型的效率指标<br>[摘要](abstracts/2603.19131.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型通过联合推理视觉、语言和运动模态，使具身智能体能够执行日益复杂的任务。然而，我们发现当前VLA研究中普遍采用的“效率”概念——以参数量、浮点运算次数或令牌解码吞吐量为特征——并不能反映在机器人平台上的实际性能。在现实世界执行中，效率由系统级具身行为决定，如任务完成时间、轨迹平滑度、累积关节旋转和运动能耗。通过对模型压缩、令牌稀疏化和动作序列压缩的对照研究，我们得出了几点挑战常见假设的观察：（1）在传统指标下减少计算的方法，尽管保持任务成功率，却常常增加端到端执行成本或降低运动质量。（2）系统级具身效率指标揭示了学习动作策略中隐藏的性能差异，这些差异在传统评估中无法显现。（3）常见的适应方法（如上下文提示或监督微调）在具身效率方面仅显示出轻微且指标特定的改进。虽然这些方法可以减少目标具身效率指标（如急动度或动作速率），但由此带来的增益可能以其他指标（如更长的完成时间）为代价。综上所述，我们的结果表明，传统的推理效率指标可能忽略了具身执行的重要方面。纳入具身效率能更全面地评估策略行为和实践性能，从而实现更公平、更全面的VLA模型比较。

← Back