Observing and Controlling Features in Vision-Language-Action Models<br>观察与控制视觉-语言-动作模型中的特征<br>[摘要](abstracts/2603.05487.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型（VLAs）在具身智能领域取得了显著进展。尽管其架构部分类似于大型语言模型（LLMs），但由于多模态输入/输出以及通常结合了Transformer和扩散头的混合特性，VLAs展现出更高的复杂性。这也是为什么LLMs中机制可解释性的见解（即解释内部模型表示如何与输出行为相关联）不能直接迁移到VLA中的部分原因。在本研究中，我们通过引入并分析两个核心概念——特征可观察性与特征可控性——来弥合这一差距。具体而言，我们首先研究了在表示空间中线性编码的特征，并展示了如何通过线性分类器进行观察。接着，我们基于最优控制理论，采用一种最小化的线性干预方法，精准地调整内部表示，并将VLA的输出引导至期望区域。结果表明，有针对性的轻量级干预能够可靠地引导机器人行为，同时保持其闭环能力。我们通过仿真实验，在不同VLA架构（如$π_{0.5}$和OpenVLA）上验证了VLAs具有可解释的内部结构，适用于无需微调的在线适应，从而能够实时与用户偏好和任务需求对齐。

← Back