Translations:Adam A Method for Stochastic Optimization/7/zh

    From Marovi AI
    • Adam 优化器:一种自适应 学习率 方法,基于梯度一阶矩和二阶矩经 偏差修正的估计,为每个参数维护各自的 学习率
    • 偏差修正:一种用于抵消矩估计在初始化时朝零方向的 偏差 的机制,在训练的初始阶段尤为重要。
    • AdaMax 变体:基于无穷范数的 推广,在稀疏梯度问题上有时可优于 Adam。
    • 实用默认值:推荐的 超参数 取值($ \beta_1 = 0.9 $$ \beta_2 = 0.999 $$ \epsilon = 10^{-8} $),在广泛的问题上都表现良好。