Translations:Decoupled Weight Decay Regularization/25/zh

adamw 已成为当代很大一部分深度学习的标准优化器，特别是在语言和视觉领域的 Transformer 模型中。主流框架内置了原生实现（PyTorch 自 1.2 起提供 torch.optim.AdamW，TensorFlow/Keras 中提供 tf.keras.optimizers.AdamW），并且该优化器是 Hugging Face Transformers 和 timm 等流行训练栈的默认选项。从业者通常使用较小的权重衰减系数（通常在 0.01 到 0.1 之间）以及余弦或线性预热的学习率调度来调优 adamw，与 AdamWR 的配方相对应。