Translations:Gradient Descent/20/zh

对于具有 Lipschitz 连续梯度（常数 $$ L $$ ）的凸函数，使用固定学习率 $\eta \leq 1/L$ 的梯度下降以 $$ O(1/t) $$ 的速率收敛。如果该函数还是参数为 $\mu > 0$ 的强凸函数，则收敛会加速到线性（指数）速率：