AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images<br>AEGIS：面向AI生成学术图片取证分析的全方位基准<br>[摘要](abstracts/2604.28177.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了AEGIS，一个面向AI生成学术图片取证分析的全方位基准。与现有基准相比，AEGIS具有三个关键进展：（1）领域特定复杂性：覆盖7个学术类别中的39个细分子类型，揭示了固有的取证难度，其中GPT-5.1的整体性能仅为48.80%，专家模型仅能达到有限的定位精度（IoU 30.09%）；（2）多样化伪造模拟：在25个生成模型上模拟了四种常见的学术伪造策略，其中11个模型的平均取证准确率低于50%，表明取证技术落后于生成技术；（3）多维度取证评估：联合评估检测、推理和定位能力，揭示了不同模型家族之间的互补优势，多模态大语言模型在文本伪迹识别上达到84.74%的准确率，而专家检测器在二分类真实性检测中最高达到79.54%的准确率。通过对25个领先的多模态大语言模型、9个专家模型和1个统一多模态理解与生成模型的评估，AEGIS作为一个诊断测试平台，揭示了学术图片取证中的根本性局限。

← Back