Abstract not available.
视觉-语言-动作系统遵循指令在多模态环境中执行多步骤任务。当前的VLA方法通常依赖于事后纠正机制或在固定任务分解和对齐方案下运行。然而,一旦中间步骤出现错误,局部错误会通过后续步骤传播,最终累积成级联故障。为了缓解这种复合效应,我们提出了预测对齐与规划架构,这是一种通过预测和对比来调整动作、子目标和轨迹三个层级偏差的框架。使用基于Sinkhorn的模块和评分场模块在所有层级强制实现语义对齐。预测纠正和对齐共同在训练过程中更新动作生成器,使其能够调整细粒度步骤以保持与整体意图一致。我们进一步引入了两个新的指标来量化任务中的错误传播和恢复过程,捕捉错误在长期执行中如何扩散和消散。实验表明,ReCAPA在VisualAgentBench、MineDojo和AI2-THOR等具身智能体基准测试中取得了有竞争力的结果,超越了强大的专有和开源大语言模型基线。