Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability<br>基于残差库普曼谱分析预测与防止Transformer训练不稳定性<br>[摘要](abstracts/2602.22988.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

Transformer训练过程中的发散问题会浪费大量计算资源,但实践者往往在昂贵的训练开始后才察觉到不稳定性。因此,在训练启动前,他们需要一种能够预估Transformer失败概率的方法。本研究提出的残差库普曼谱分析(RKSP)提供了此类估计。仅通过初始化阶段的单次前向传播,RKSP通过应用白化动态模态分解对逐层残差快照进行库普曼谱特征提取。我们的核心诊断指标——近单位谱质量,量化了集中在单位圆附近的模态比例,从而捕捉不稳定性风险。在广泛配置下预测训练发散时,该估计器的AUROC达到0.995,优于最佳梯度基线方法。我们进一步通过库普曼谱整形(KSS)使诊断具备可操作性,该方法在训练过程中重塑谱分布。我们通过实证验证了该方法的实用性:RKSP能在初始化阶段预测发散风险,当RKSP标记高风险时,启用KSS可成功防止发散。在无归一化层的高学习率挑战性场景中,KSS将发散率从66.7%降至12.5%,并使学习率提升50%至150%。这些发现可推广至WikiText-103语言建模、CIFAR-10上的视觉Transformer、预训练语言模型(包括GPT-2和LLaMA-2达70亿参数),以及新兴架构如混合专家模型(MoE)、Mamba风格状态空间模型(SSM)和Kolmogorov–Arnold网络(KAN)。

← Back