SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation<br>SOMA：通过上下文适应增强视觉-语言-动作模型鲁棒性的战略编排与记忆增强系统<br>[摘要](abstracts/2603.24060.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作（VLA）模型作为通用机器人控制器展现出潜力，但其在分布外（OOD）任务中对感知噪声和环境变化的鲁棒性，因缺乏长期记忆、因果故障归因和动态干预能力而受到根本限制。为解决这一问题，我们提出了SOMA，一个战略编排与记忆增强系统，它通过上下文适应升级冻结的VLA策略以实现鲁棒性，无需参数微调。具体而言，SOMA通过在线流程运作，包括对比性双记忆检索增强生成（RAG）、归因驱动的大型语言模型（LLM）编排器以及可扩展的模型上下文协议（MCP）干预，同时离线记忆整合模块持续将执行轨迹提炼为可靠先验。在LIBERO-PRO和我们提出的LIBERO-SOMA基准测试中，对三个骨干模型（pi0、pi0.5和SmolVLA）的实验评估表明，SOMA实现了平均绝对成功率提升56.6%，其中在长视野任务链中取得了89.1%的显著绝对改进。项目页面和源代码可在以下网址获取：https://github.com/LZY-1021/SOMA。

← Back