Learning Next Action Predictors from Human-Computer Interaction<br>从人机交互中学习下一个动作预测器<br>[摘要](abstracts/2603.05923.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

真正主动的人工智能系统必须能够预测我们下一步将做什么。这种预见性需要的远不止我们输入提示中的稀疏信号——它要求对我们所见所行的完整上下文进行推理。我们将此形式化为下一个动作预测（NAP）：给定用户与计算机的多模态交互序列（屏幕截图、点击、传感器数据），预测该用户的下一个动作。在这一任务上取得进展需要新的数据与建模方法。为扩大数据规模，我们利用视觉语言模型对纵向、自然的计算机使用情况进行标注。我们发布了一个开源流程，可在私有基础设施上执行此标注，并对20名用户连续一个月的手机使用情况标注了超过36万个动作，总计1,800小时的屏幕使用时间。接着，我们提出了LongNAP——一种结合参数化学习与上下文学习的用户模型，用于对长交互历史进行推理。LongNAP通过策略梯度方法训练，能够根据特定上下文生成用户专属的推理轨迹；从历史轨迹库中检索相关轨迹；并在上下文中应用检索到的轨迹来预测未来动作。使用基于大语言模型的评判指标（与真实情况的相似度0-1分），LongNAP在保留数据上显著优于监督微调和提示基线（分别提升79%和39%）。此外，当跨个体训练时，LongNAP能够泛化到未见过的用户。用户在任意时刻可能采取的下一个动作空间是无限的，涵盖数千种可能结果。尽管如此，LongNAP预测的轨迹中有17.1%与用户后续行为高度吻合（大语言模型评判得分≥0.5）。若筛选高置信度预测，这一比例可提升至26%。总之，我们认为通过学习用户行为的完整上下文来预判用户需求，已成为一项具有巨大潜力的可行任务。

← Back