Abstract not available.
多模态智能体流程正通过实现复杂现实任务的高效可及自动化,深刻改变人机交互模式。然而,现有研究多聚焦于短周期或通用场景(如移动端或桌面界面),针对特定领域系统——尤其是医疗健康领域——的长周期自动化仍属空白。为此,我们构建了CareFlow:一个高质量人工标注的基准测试集,涵盖医学标注工具、DICOM影像浏览器、电子健康记录系统及实验室信息系统中复杂的长周期软件工作流。实验表明,现有视觉语言模型在该基准上表现欠佳,难以应对医疗场景下的长周期推理与多步骤交互。为突破此局限,我们提出CarePilot——基于演员-评论家范式的多智能体框架。其中,演员模块通过工具定位与双记忆机制(长期经验与短期经验)的融合,依据可视化界面与系统状态预测下一语义动作;评论家模块评估每个动作,根据观测结果更新记忆,并选择执行动作或提供修正反馈以优化工作流。通过迭代式智能体模拟,演员模块在推理过程中逐步学会生成更具鲁棒性与推理意识的预测。实验证明,CarePilot在基准测试与分布外数据集上均达到最先进性能,分别以约15.26%和3.38%的优势超越强闭源与开源多模态基线模型。