Translations:Stochastic Gradient Descent/3/zh

    From Marovi AI

    在經典的梯度下降中,每次參數更新前都要在整個訓練集上計算損失函數的完整梯度。當數據集很大時,這種做法的代價高得難以承受。SGD 通過在每一步從單個隨機選取的樣本(或一個小的 mini-batch)估計梯度來解決該問題,以較高噪聲的估計換取每次迭代成本的大幅降低。