Translations:Adam A Method for Stochastic Optimization/7/zh
- Adam 优化器:一种自适应学习率方法,基于梯度一阶矩和二阶矩的偏差校正估计为每个参数维护学习率。
- 偏差校正:一种用于抵消矩估计在初始化时趋向零的偏差的机制,这在训练的初始步骤中尤为重要。
- AdaMax 变体:一种基于无穷范数的推广,在稀疏梯度问题上有时可优于 Adam。
- 实用默认值:推荐的超参数值($ \beta_1 = 0.9 $、$ \beta_2 = 0.999 $、$ \epsilon = 10^{-8} $),在广泛范围的问题上效果良好。