Translations:Decoupled Weight Decay Regularization/25/zh

adamw 已成為當代很大一部分深度學習的標準優化器，特別是在語言和視覺領域的 Transformer 模型中。主流框架內置了原生實現（PyTorch 自 1.2 起提供 torch.optim.AdamW，TensorFlow/Keras 中提供 tf.keras.optimizers.AdamW），並且該優化器是 Hugging Face Transformers 和 timm 等流行訓練棧的默認選項。從業者通常使用較小的權重衰減係數（通常在 0.01 到 0.1 之間）以及餘弦或線性預熱的學習率調度來調優 adamw，與 AdamWR 的配方相對應。