Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models<br>并非所有特征生而平等:视觉-语言-动作模型机制研究<br>[摘要](abstracts/2603.19233.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型将感知、语言与运动控制融合于单一架构,但其如何将多模态输入转化为动作仍鲜为人知。本研究在四个基准测试的394,000+次推演中,对六个参数量级跨越80M至7B的模型应用了激活注入、稀疏自编码器(SAEs)和线性探针分析。研究发现:在所有架构中,视觉通路主导动作生成——将基线激活注入无提示任务推演可恢复近乎一致的行为,而跨任务注入则引导机器人趋向源任务位置(X-VLA推演中99.8%与源轨迹吻合),揭示了与场景坐标而非抽象任务表征绑定的空间化运动程序。语言敏感性取决于任务结构而非模型设计:当视觉上下文唯一确定任务时,语言被忽略;当同一场景存在多目标时,语言变得至关重要(X-VLA在\texttt{libero\_goal}任务中错误提示导致成功率从94%降至10%,而\texttt{libero\_object}任务无论提示如何均保持60-100%成功率)。在三种多通路架构(\pizhalf{}、SmolVLA、GR00T)中,专家通路编码运动程序,而视觉语言模型通路编码目标语义(专家注入导致的行为偏移量是后者的2倍),子空间注入证实二者占据可分离的激活子空间。尽管在X-VLA上均值池化能提升动作保真度,但多数架构中基于词元的SAE处理对动作保真至关重要。对比识别方法复原了82个以上操作概念,因果消融实验显示零效应率在28-92%间波动,且与表征宽度无关。我们发布\textbf{动作图谱}(https://action-atlas.com)平台,支持对全部六个模型的VLA表征进行交互式探索。

← Back