Translations:Stochastic Gradient Descent/3/es

En el descenso de gradiente clásico, el gradiente completo de la función de pérdida se calcula sobre todo el conjunto de entrenamiento antes de cada actualización de parámetros. Cuando el conjunto de datos es grande, esto se vuelve prohibitivamente costoso. SGD aborda el problema estimando el gradiente a partir de una única muestra elegida al azar (o un pequeño mini-batch) en cada paso, intercambiando una estimación más ruidosa por un costo por iteración drásticamente menor.