Abstract not available.
近年来,文本引导的图像编辑模型取得了显著进展,但编辑后的图像仍频繁出现诸如对象不自然、光照不匹配和意外修改等细粒度问题。现有的优化方法要么依赖代价高昂的迭代重新生成,要么采用空间定位能力较弱的视觉语言模型,常导致语义漂移和不可靠的局部修正。为解决这些局限,我们首先构建了EditFHF-15K数据集,这是一个针对编辑图像的细粒度人类反馈数据集,包含:(1) 来自12种图像编辑模型、覆盖43项编辑任务的15000张图像;(2) 60000个标注的伪影区域和80000个编辑失败区域,每个区域均附带文本解释;(3) 45000个平均意见得分,用于评估感知质量、指令遵循度和视觉一致性。基于EditFHF-15K,我们提出EditRefiner,一种层次化、可解释且符合人类认知的智能体框架,将后编辑修正重构为类人的感知-推理-行动-评估循环。具体而言,我们引入:(1) 感知智能体,检测伪影和编辑失败的上下文显著图;(2) 推理智能体,解读这些感知线索以进行符合人类认知的诊断推理;(3) 行动智能体,利用推理结果规划并执行局部重新编辑;(4) 评估智能体,评估重新编辑后的图像并指导行动智能体判断是否需要进一步优化。大量实验表明,EditRefiner在失真定位、诊断准确度和人类感知对齐方面持续优于现有最先进方法,为自修正和感知可靠的图像编辑建立了新范式。代码已开源至https://github.com/IntMeGroup/EditRefiner。