Translations:Decoupled Weight Decay Regularization/25/zh
AdamW 已成为当代深度学习中很大一部分工作的标准优化器,尤其是在语言和视觉领域的 transformer 中。主流框架都提供了原生实现(PyTorch 自 1.2 起提供 torch.optim.AdamW,TensorFlow/Keras 提供 tf.keras.optimizers.AdamW),并且该优化器在 Hugging Face Transformers、timm 等流行训练栈中是默认选择。实践者通常以较小的权重衰减系数(常在 0.01 至 0.1 之间)和余弦或线性预热的学习率调度来调参 AdamW,与 AdamWR 的配方相呼应。