Translations:Gradient Descent/27/zh

    From Marovi AI
    • 过大 — 迭代会振荡或发散。
    • 过小收敛速度慢得难以接受。
    • 学习率调度 — 许多从业者从较大的学习率开始,并随时间降低(阶梯衰减指数衰减余弦退火)。
    • 线搜索 — 经典数值方法在每选择 $ \eta $ 以满足 Wolfe 或 Armijo 等条件,但在深度学习中很少使用。