Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models<br>揭示视觉-语言-动作模型中具身推理的幻象<br>[摘要](abstracts/2604.18000.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期视觉-语言-动作（VLA）模型在标准机器人基准测试中报告了令人瞩目的成功率，激发了人们对通用物理智能的乐观预期。然而，新近证据表明标准基准测试的成功与真实具身推理之间存在系统性错位，这引发了一个疑问：这些高分是否反映了真正的认知能力？为填补这一空白，我们提出了BeTTER，一个用于测试机器人策略中真实具身推理的诊断性基准。BeTTER通过实施针对性因果干预（如空间布局变换、时间外推），同时强制运动学隔离，以明确解耦高层推理失败与低层执行限制。通过系统评估，我们发现最先进的VLA模型在动态场景中灾难性地失败，表现出严重的词汇-运动捷径、行为惯性及语义特征塌缩。关键的是，我们的机制分析将这些症状追溯到根本性的架构瓶颈——例如容量压缩和短视下采样——这些瓶颈系统地削弱了模型的基础语义表征。我们证明，高度静态的评估协议通过允许优化过度拟合感觉运动先验，有效地掩盖了这种退化。基于真实世界机器人验证的支持，我们的研究结果确认这种表征崩溃并非仿真伪影，突显了未来VLA范式亟需解决高频控制与高层推理之间的结构性张力。

← Back