Translations:Stochastic Gradient Descent/3/zh

在經典的梯度下降中，每次參數更新前都要在整個訓練集上計算損失函數的完整梯度。當數據集很大時，這種做法的代價高得難以承受。SGD 通過在每一步從單個隨機選取的樣本（或一個小的 mini-batch）估計梯度來解決該問題，以較高噪聲的估計換取每次迭代成本的大幅降低。