Translations:Decoupled Weight Decay Regularization/25/zh

    From Marovi AI

    adamw 已成為當代很大一部分深度學習的標準優化器,特別是在語言和視覺領域的 Transformer 模型中。主流框架內置了原生實現(PyTorch 自 1.2 起提供 torch.optim.AdamW,TensorFlow/Keras 中提供 tf.keras.optimizers.AdamW),並且該優化器是 Hugging Face Transformers 和 timm 等流行訓練棧的默認選項。從業者通常使用較小的權重衰減係數(通常在 0.01 到 0.1 之間)以及餘弦或線性預熱的學習率調度來調優 adamw,與 AdamWR 的配方相對應。