Translations:Gradient Descent/20/zh

    From Marovi AI

    对于具有 Lipschitz 连续梯度(常数 $ L $)的凸函数,使用固定 学习率 $ \eta \leq 1/L $ 的梯度下降以 $ O(1/t) $ 的速率收敛。如果该函数还是参数为 $ \mu > 0 $强凸 函数,则 收敛 会加速到线性(指数)速率: