Abstract not available.
自主GUI代理通过感知界面和执行动作与环境交互。作为一种虚拟沙盒,GUI世界模型通过支持基于动作的预测,赋予代理类人的预见能力。然而,现有的基于文本和像素的方法难以同时实现高视觉保真度和细粒度结构可控性。为此,我们提出了Code2World,一种通过可渲染代码生成来模拟下一视觉状态的视觉语言编码器。具体而言,为解决数据稀缺问题,我们构建了AndroidCode数据集,将GUI轨迹转换为高保真的HTML代码,并通过视觉反馈修正机制优化合成代码,生成了包含超过8万对高质量屏幕-动作对的语料库。为使现有视觉语言模型适应代码预测任务,我们首先进行监督微调作为格式布局遵循的冷启动,随后进一步应用渲染感知强化学习,以渲染结果作为奖励信号,强化视觉语义保真度和动作一致性。大量实验表明,Code2World-8B在下一UI预测任务中表现最佳,可与竞争模型GPT-5和Gemini-3-Pro-Image相媲美。值得注意的是,Code2World以灵活方式显著提升了下游导航任务的成功率,在AndroidWorld导航任务中将Gemini-2.5-Flash的性能提高了9.5%。代码已开源:https://github.com/AMAP-ML/Code2World。