MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models<br>MAIN-VLA：为视觉-语言-动作模型建模意图与环境的抽象<br>[摘要](abstracts/2602.02212.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作（VLA）模型已取得显著进展，但在涉及实时不可预测交互的高度复杂动态环境（如3D开放世界和大型PvP游戏）中，现有方法仍难以从冗余的传感器流中高效提取动作关键信号。为此，我们提出MAIN-VLA框架，通过显式建模意图与环境的抽象，将决策制定建立在深层语义对齐而非浅层模式匹配的基础上。具体而言，我们的意图抽象（IA）将冗长的语言指令及其相关推理提炼为紧凑、显式的语义基元，而环境语义抽象（ESA）则将海量视觉流映射为结构化的拓扑可供性表示。此外，对齐这两种抽象模态会引发一种自发的注意力集中效应，从而支持无需参数的令牌剪枝策略，在保持性能的同时过滤感知冗余。在开放世界《我的世界》及大规模PvP环境（《和平精英》与《无畏契约》）中的大量实验表明，MAIN-VLA实现了新的技术突破，具备更优的决策质量、更强的泛化能力以及顶尖的推理效率。

← Back