Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models<br>并非所有特征生而平等：视觉-语言-动作模型机制研究<br>[摘要](abstracts/2603.19233.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型将感知、语言与运动控制融合于单一架构，但其如何将多模态输入转化为动作仍鲜为人知。本研究在四个基准测试的394,000+次推演中，对六个参数量级跨越80M至7B的模型应用了激活注入、稀疏自编码器（SAEs）和线性探针分析。研究发现：在所有架构中，视觉通路主导动作生成——将基线激活注入无提示任务推演可恢复近乎一致的行为，而跨任务注入则引导机器人趋向源任务位置（X-VLA推演中99.8%与源轨迹吻合），揭示了与场景坐标而非抽象任务表征绑定的空间化运动程序。语言敏感性取决于任务结构而非模型设计：当视觉上下文唯一确定任务时，语言被忽略；当同一场景存在多目标时，语言变得至关重要（X-VLA在\texttt{libero\_goal}任务中错误提示导致成功率从94%降至10%，而\texttt{libero\_object}任务无论提示如何均保持60-100%成功率）。在三种多通路架构（\pizhalf{}、SmolVLA、GR00T）中，专家通路编码运动程序，而视觉语言模型通路编码目标语义（专家注入导致的行为偏移量是后者的2倍），子空间注入证实二者占据可分离的激活子空间。尽管在X-VLA上均值池化能提升动作保真度，但多数架构中基于词元的SAE处理对动作保真至关重要。对比识别方法复原了82个以上操作概念，因果消融实验显示零效应率在28-92%间波动，且与表征宽度无关。我们发布\textbf{动作图谱}（https://action-atlas.com）平台，支持对全部六个模型的VLA表征进行交互式探索。

← Back