Abstract not available.
随着多模态大语言模型(MLLMs)的发展,自主移动图形用户界面(GUI)代理日益受到关注。然而,现有方法在长序列GUI任务中仍面临从失败轨迹中学习效率低下,以及在稀疏奖励下信用分配模糊的问题。为此,我们提出UI-Voyager,一种新颖的两阶段自我进化移动GUI代理。在第一阶段,我们采用拒绝微调(RFT),实现数据和模型在全自主循环中的持续协同进化。第二阶段引入组相对自蒸馏(GRSD),该方法识别组推演中的关键分叉点,并从成功轨迹构建密集的步骤级监督,以修正失败轨迹。在AndroidWorld上的大量实验表明,我们的40亿参数模型实现了81.0%的Pass@1成功率,超越了多个近期基线并超过了人类水平。消融实验和案例研究进一步验证了GRSD的有效性。我们的方法代表了在无需昂贵人工数据标注的情况下,实现高效、自我进化及高性能移动GUI自动化的重大飞跃。