Translations:Decoupled Weight Decay Regularization/25/zh
adamw 已成为当代很大一部分深度学习的标准优化器,特别是在语言和视觉领域的 Transformer 模型中。主流框架内置了原生实现(PyTorch 自 1.2 起提供 torch.optim.AdamW,TensorFlow/Keras 中提供 tf.keras.optimizers.AdamW),并且该优化器是 Hugging Face Transformers 和 timm 等流行训练栈的默认选项。从业者通常使用较小的权重衰减系数(通常在 0.01 到 0.1 之间)以及余弦或线性预热的学习率调度来调优 adamw,与 AdamWR 的配方相对应。