EditRefiner: A Human-Aligned Agentic Framework for Image Editing Refinement<br>EditRefiner：一种面向图像编辑优化的人机对齐智能体框架<br>[摘要](abstracts/2605.07457.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来，文本引导的图像编辑模型取得了显著进展，但编辑后的图像仍频繁出现诸如对象不自然、光照不匹配和意外修改等细粒度问题。现有的优化方法要么依赖代价高昂的迭代重新生成，要么采用空间定位能力较弱的视觉语言模型，常导致语义漂移和不可靠的局部修正。为解决这些局限，我们首先构建了EditFHF-15K数据集，这是一个针对编辑图像的细粒度人类反馈数据集，包含：(1) 来自12种图像编辑模型、覆盖43项编辑任务的15000张图像；(2) 60000个标注的伪影区域和80000个编辑失败区域，每个区域均附带文本解释；(3) 45000个平均意见得分，用于评估感知质量、指令遵循度和视觉一致性。基于EditFHF-15K，我们提出EditRefiner，一种层次化、可解释且符合人类认知的智能体框架，将后编辑修正重构为类人的感知-推理-行动-评估循环。具体而言，我们引入：(1) 感知智能体，检测伪影和编辑失败的上下文显著图；(2) 推理智能体，解读这些感知线索以进行符合人类认知的诊断推理；(3) 行动智能体，利用推理结果规划并执行局部重新编辑；(4) 评估智能体，评估重新编辑后的图像并指导行动智能体判断是否需要进一步优化。大量实验表明，EditRefiner在失真定位、诊断准确度和人类感知对齐方面持续优于现有最先进方法，为自修正和感知可靠的图像编辑建立了新范式。代码已开源至https://github.com/IntMeGroup/EditRefiner。

← Back