Translations:Adam A Method for Stochastic Optimization/23/zh
- MNIST 上的 逻辑回归:Adam 的收敛速度快于带动量的 SGD、adagrad 和 rmsprop。
- MNIST 上的 多层神经网络:Adam 取得了最低的训练代价,收敛速度与竞争方法相当或更好。
- CIFAR-10 上的 卷积神经网络:Adam 的表现与精心调优的动量和学习率时间表下的 SGD 相当。
- 变分自编码器(VAE):Adam 被成功用于优化变分下界,展示了其在生成模型中的适用性。