ST-$π$: Structured SpatioTemporal VLA for Robotic Manipulation<br>ST-π：面向机器人操作的结构化时空视觉语言动作模型<br>[摘要](abstracts/2604.17880.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型在通用机器人任务上已取得显著成功，但在细粒度时空操作方面仍面临挑战。现有方法通常将时空知识嵌入视觉与动作表征中，并通过跨模态映射直接进行步骤级动作预测。然而，这种时空推理在很大程度上仍是隐式的，难以处理具有明确时空边界的多序列行为。为此，本文提出ST-π，一种用于机器人操作的结构化时空VLA模型。我们的模型基于两个核心设计：1）时空视觉语言模型（VLM）。我们将四维观测数据与任务指令编码至潜在空间，并输入大语言模型以生成由子任务、空间定位与时间定位构成的因果有序块级动作提示序列。2）时空动作专家。在块级动作提示的引导下，我们设计了一种结构化双生成器指导机制，以联合建模空间依赖性与时间因果性，从而预测步骤级动作参数。在此结构化框架内，VLM显式规划全局时空行为，动作专家则进一步细化局部时空控制。此外，我们提出了一个带有结构化时空标注的真实世界机器人数据集用于微调。大量实验验证了模型的有效性。代码链接：https://github.com/chuanhaoma/ST-pi。

← Back