Abstract not available.
随着大型模型的快速发展,其安全性已成为优先关注点。当前大型语言模型和多模态大型语言模型的安全工作流程中,评估、诊断和对齐通常由独立工具处理。具体而言,安全评估仅能定位外部行为风险,无法查明内部根本原因;而安全诊断常脱离具体风险场景,停留在可解释性层面。这导致安全对齐缺乏对内部机制变化的专门解释,可能损害模型的通用能力。为系统解决这些问题,我们提出了一个开源项目DeepSight,实践一种新的安全评估-诊断一体化范式。DeepSight是一个低成本、可复现、高效且高度可扩展的大规模模型安全评估项目,包含评估工具包DeepSafe和诊断工具包DeepScan。通过统一任务与数据协议,我们在两个阶段间建立连接,将安全评估从黑盒洞察转变为白盒洞察。此外,DeepSight是首个支持前沿人工智能风险评估及联合安全评估与诊断的开源工具箱。