Abstract not available.
尽管视觉-语言-动作(VLA)模型已取得显著进展,但在涉及实时不可预测交互的高度复杂动态环境(如3D开放世界和大型PvP游戏)中,现有方法仍难以从冗余的传感器流中高效提取动作关键信号。为此,我们提出MAIN-VLA框架,通过显式建模意图与环境的抽象,将决策制定建立在深层语义对齐而非浅层模式匹配的基础上。具体而言,我们的意图抽象(IA)将冗长的语言指令及其相关推理提炼为紧凑、显式的语义基元,而环境语义抽象(ESA)则将海量视觉流映射为结构化的拓扑可供性表示。此外,对齐这两种抽象模态会引发一种自发的注意力集中效应,从而支持无需参数的令牌剪枝策略,在保持性能的同时过滤感知冗余。在开放世界《我的世界》及大规模PvP环境(《和平精英》与《无畏契约》)中的大量实验表明,MAIN-VLA实现了新的技术突破,具备更优的决策质量、更强的泛化能力以及顶尖的推理效率。