Translations:Stochastic Gradient Descent/3/zh

在经典的梯度下降中，每次参数更新前都要在整个训练集上计算损失函数的完整梯度。当数据集很大时，这种做法的代价高得难以承受。SGD 通过在每一步从单个随机选取的样本（或一个小的 mini-batch）估计梯度来解决该问题，以较高噪声的估计换取每次迭代成本的大幅降低。