Translations:Gradient Descent/27/zh

    From Marovi AI
    • 過大 — 迭代會振盪或發散。
    • 過小收斂速度慢得難以接受。
    • 學習率調度 — 許多從業者從較大的學習率開始,並隨時間降低(階梯衰減指數衰減餘弦退火)。
    • 線搜索 — 經典數值方法在每選擇 $ \eta $ 以滿足 Wolfe 或 Armijo 等條件,但在深度學習中很少使用。