AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images<br>AEGIS:面向AI生成学术图片取证分析的全方位基准<br>[摘要](abstracts/2604.28177.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了AEGIS,一个面向AI生成学术图片取证分析的全方位基准。与现有基准相比,AEGIS具有三个关键进展:(1)领域特定复杂性:覆盖7个学术类别中的39个细分子类型,揭示了固有的取证难度,其中GPT-5.1的整体性能仅为48.80%,专家模型仅能达到有限的定位精度(IoU 30.09%);(2)多样化伪造模拟:在25个生成模型上模拟了四种常见的学术伪造策略,其中11个模型的平均取证准确率低于50%,表明取证技术落后于生成技术;(3)多维度取证评估:联合评估检测、推理和定位能力,揭示了不同模型家族之间的互补优势,多模态大语言模型在文本伪迹识别上达到84.74%的准确率,而专家检测器在二分类真实性检测中最高达到79.54%的准确率。通过对25个领先的多模态大语言模型、9个专家模型和1个统一多模态理解与生成模型的评估,AEGIS作为一个诊断测试平台,揭示了学术图片取证中的根本性局限。

← Back