CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations<br>CSR:基于海量缓存状态表示的无限时域实时策略<br>[摘要](abstracts/2605.07325.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

将大规模大型语言模型作为机器人持续认知引擎的部署,受限于处理大量状态历史所需的首次令牌生成时间(TTFT)延迟。现有解决方案如RAG或滑动窗口会牺牲全局上下文,或导致高昂的重新计算成本。我们形式化了最小化延迟的最优任务结构,并从理论上证明前缀稳定性、增量可扩展性和异步状态协调是实现实时性能的必要条件。基于这些证明,我们提出了缓存状态表示(CSR)框架作为这些属性的实际实例化,确保了最优的KV缓存复用。为了在无限时域上维持这些属性,我们进一步提出了一种异步状态协调(ASR)算法,将状态内存驱逐卸载到并行计算资源上,以消除延迟尖峰。在一台与本地GPU服务器无线连接的物理机器人上,CSR在使用235B参数模型处理120K令牌上下文时,实现了26倍的延迟降低(从14.67秒降至0.56秒),相比于标准基线。在具身AI基准测试中,我们在保持RAG级延迟的同时达到了SOTA召回率(0.836对比0.459)。ASR在连续现实世界操作中,经过10次驱逐周期验证,能够维持有界、无尖峰的TTFT。CSR和ASR共同使大规模LLM能够作为持续运行、高频(>2 Hz)的具身策略。

← Back