Translations:Gradient Descent/27/zh

    From Marovi AI
    • 过大 —— 迭代会振荡或发散。
    • 过小 —— 收敛速度慢得无法接受。
    • 学习率调度 —— 许多实践者先使用较大的学习率,再随时间减小(阶梯衰减、指数衰减、余弦退火)。
    • 线搜索 —— 经典数值方法在每一步选择 $ \eta $ 以满足 Wolfe 或 Armijo 等条件,尽管这在深度学习中很少见。