Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models<br>稀疏自编码器揭示VLA模型中的可解释与可操控特征<br>[摘要](abstracts/2603.19183.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型已成为通用机器人操作的一种有前景方法。然而，其泛化能力并不稳定：这些模型在某些场景下表现优异，但经过微调的变体却常在新物体、新场景和新指令上失效。我们应用机制可解释性技术以深入理解VLA模型的内在运作机制。为探究内部表征，我们在VLA隐藏层激活上训练稀疏自编码器（SAE）。SAE学习到一个稀疏字典，其特征可作为模型计算的紧凑且可解释的基础。我们发现，绝大多数提取的SAE特征对应于特定训练演示中的记忆序列。然而，部分特征对应着可解释、通用且可操控的运动基元与语义属性，这为VLA的泛化能力提供了有希望的线索。我们提出一种度量方法，根据特征是否代表可泛化的可迁移基元或特定情节的记忆来对其进行分类。通过在LIBERO基准上的操控实验验证了这些发现。我们证明单个SAE特征能因果性地影响机器人行为。操控通用特征可诱导与其语义含义一致的行为，并能跨任务和场景应用。这项工作首次提供了机制性证据，表明VLA能够学习跨任务和场景的泛化特征。我们观察到，在小型机器人数据集上进行监督微调会不成比例地放大记忆效应。相比之下，在更大、更多样化的数据集（如DROID）上训练或使用知识隔离方法能促进更通用特征的形成。我们提供了一个开源代码库和用户友好的界面，用于激活收集、SAE训练和特征操控。项目页面位于 http://drvla.github.io。

← Back