Translations:Decoupled Weight Decay Regularization/25/zh

AdamW 已成为当代深度学习中很大一部分工作的标准优化器，尤其是在语言和视觉领域的 transformer 中。主流框架都提供了原生实现（PyTorch 自 1.2 起提供 torch.optim.AdamW，TensorFlow/Keras 提供 tf.keras.optimizers.AdamW），并且该优化器在 Hugging Face Transformers、timm 等流行训练栈中是默认选择。实践者通常以较小的权重衰减系数（常在 0.01 至 0.1 之间）和余弦或线性预热的学习率调度来调参 AdamW，与 AdamWR 的配方相呼应。