CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare<br>CarePilot：面向医疗领域长周期计算机任务自动化的多智能体框架<br>[摘要](abstracts/2603.24157.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态智能体流程正通过实现复杂现实任务的高效可及自动化，深刻改变人机交互模式。然而，现有研究多聚焦于短周期或通用场景（如移动端或桌面界面），针对特定领域系统——尤其是医疗健康领域——的长周期自动化仍属空白。为此，我们构建了CareFlow：一个高质量人工标注的基准测试集，涵盖医学标注工具、DICOM影像浏览器、电子健康记录系统及实验室信息系统中复杂的长周期软件工作流。实验表明，现有视觉语言模型在该基准上表现欠佳，难以应对医疗场景下的长周期推理与多步骤交互。为突破此局限，我们提出CarePilot——基于演员-评论家范式的多智能体框架。其中，演员模块通过工具定位与双记忆机制（长期经验与短期经验）的融合，依据可视化界面与系统状态预测下一语义动作；评论家模块评估每个动作，根据观测结果更新记忆，并选择执行动作或提供修正反馈以优化工作流。通过迭代式智能体模拟，演员模块在推理过程中逐步学会生成更具鲁棒性与推理意识的预测。实验证明，CarePilot在基准测试与分布外数据集上均达到最先进性能，分别以约15.26%和3.38%的优势超越强闭源与开源多模态基线模型。

← Back