Translations:Decoupled Weight Decay Regularization/25/es

AdamW se ha convertido en el optimizador estándar para una gran parte del aprendizaje profundo contemporáneo, en particular para los transformers en lenguaje y visión. Los marcos principales incluyen implementaciones nativas (torch.optim.AdamW en PyTorch desde la versión 1.2, tf.keras.optimizers.AdamW en TensorFlow/Keras), y el optimizador es el predeterminado en pilas de entrenamiento populares como Hugging Face Transformers y timm. Los practicantes suelen ajustar AdamW con un coeficiente pequeño de decaimiento de pesos (a menudo entre 0,01 y 0,1) y una programación de tasa de aprendizaje cosenoidal o con calentamiento lineal, en paralelo con la receta AdamWR.