Translations:Adam A Method for Stochastic Optimization/4/zh

训练深度神经网络需要使用随机梯度估计来最小化一个高维、非凸的目标函数。标准的随机梯度下降(SGD)对所有参数使用单一的全局学习率,当不同参数的梯度幅度差异很大,或损失曲面具有高度各向异性的曲率时,这可能并非最优。