SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation<br>SOMA:通过上下文适应增强视觉-语言-动作模型鲁棒性的战略编排与记忆增强系统<br>[摘要](abstracts/2603.24060.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作(VLA)模型作为通用机器人控制器展现出潜力,但其在分布外(OOD)任务中对感知噪声和环境变化的鲁棒性,因缺乏长期记忆、因果故障归因和动态干预能力而受到根本限制。为解决这一问题,我们提出了SOMA,一个战略编排与记忆增强系统,它通过上下文适应升级冻结的VLA策略以实现鲁棒性,无需参数微调。具体而言,SOMA通过在线流程运作,包括对比性双记忆检索增强生成(RAG)、归因驱动的大型语言模型(LLM)编排器以及可扩展的模型上下文协议(MCP)干预,同时离线记忆整合模块持续将执行轨迹提炼为可靠先验。在LIBERO-PRO和我们提出的LIBERO-SOMA基准测试中,对三个骨干模型(pi0、pi0.5和SmolVLA)的实验评估表明,SOMA实现了平均绝对成功率提升56.6%,其中在长视野任务链中取得了89.1%的显著绝对改进。项目页面和源代码可在以下网址获取:https://github.com/LZY-1021/SOMA。

← Back