Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference<br>潜在桥接:面向高效双系统视觉-语言-动作模型推理的特征增量预测<br>[摘要](abstracts/2605.02739.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

双系统视觉-语言-动作(VLA)模型在机器人操作中达到了最先进的性能,但其VLM骨干网络成为瓶颈——该网络必须在每个控制步骤执行,同时产生时间上冗余的特征。我们提出潜在桥接(Latent Bridge),一种轻量级模型,用于预测不同时间步之间VLM输出的增量,使得动作头可以在预测输出上运行,而昂贵的VLM骨干网络仅周期性调用。我们在两个架构上截然不同的VLA上实例化潜在桥接:GR00T-N1.6(特征空间桥接)和π0.5(KV缓存桥接),证明该方法可泛化至不同VLA设计。我们任务无关的DAgger训练流程无需修改即可跨基准迁移。在四个LIBERO套件、24个RoboCasa厨房任务以及ALOHA仿真转移立方体任务中,潜在桥接在将VLM调用减少50-75%的同时实现了95-100%的性能保持,并带来了1.65-1.73倍的每回合净加速比。

← Back