OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation<br>OFlow：注入对象感知时序流匹配以实现鲁棒机器人操作<br>[摘要](abstracts/2604.17876.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

鲁棒的机器人操作不仅需要预测场景随时间的变化，还需在复杂场景中识别任务相关对象。然而，现有的视觉语言动作模型面临两个局限：它们通常仅基于当前帧进行操作，而未来预测和对象感知推理往往在分离的隐空间中进行学习。我们提出了OFlow（将对象感知时序流匹配注入视觉语言动作模型），该框架通过在共享的语义隐空间中统一时序前瞻与对象感知推理，以解决这两个问题。我们的方法使用时序流匹配预测未来隐状态，将其分解为对象感知表示，以强调物理相关线索并过滤任务无关的变异，并基于这些预测条件生成连续动作。通过将OFlow集成到视觉语言动作模型流程中，我们的方法能在分布偏移下实现更可靠的控制。在LIBERO、LIBERO-Plus、MetaWorld和SimplerEnv基准测试及实际任务中的大量实验表明，对象感知的前瞻能力持续提升了鲁棒性和任务成功率。

← Back