Translations:Adam A Method for Stochastic Optimization/5/zh

像 adagrad 这样的早期自适应方法在整个训练过程中累积平方梯度,导致学习率单调衰减至零 —— 这对非凸问题来说是一个隐患。rmsprop 通过使用指数移动平均解决了这一问题,但缺乏偏差校正。Adam 将这些思想统一起来,对梯度的一阶矩(均值)和二阶矩(未中心化的方差)均给出偏差校正后的估计,提供了一个有效且计算高效的优化器,并具有表现良好的默认超参数。