對於具有 Lipschitz 連續梯度(常數 $ L $)的凸函數,使用固定 學習率 $ \eta \leq 1/L $ 的梯度下降以 $ O(1/t) $ 的速率收斂。如果該函數還是參數為 $ \mu > 0 $ 的 強凸 函數,則 收斂 會加速到線性(指數)速率: