DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:01Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 112:		Line 112:
	[[Category:Algoritmos de optimización]]		[[Category:Algoritmos de optimización]]
	[[Category:Métodos de gradiente]]		[[Category:Métodos de gradiente]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:01:21Z

Pass 2 force re-parse

← Older revision		Revision as of 07:01, 24 April 2026
Line 113:		Line 113:
	[[Category:Métodos de gradiente]]		[[Category:Métodos de gradiente]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:58:43Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:58, 24 April 2026
Line 112:		Line 112:
	[[Category:Algoritmos de optimización]]		[[Category:Algoritmos de optimización]]
	[[Category:Métodos de gradiente]]		[[Category:Métodos de gradiente]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:50Z

[deploy-bot] Deploy from CI (775ba6e)

New page

El '''descenso de gradiente estocástico''' (a menudo abreviado '''SGD''', del inglés ''stochastic gradient descent'') es un algoritmo de optimización iterativa utilizado para minimizar una función objetivo expresada como la suma de subfunciones diferenciables. Es el motor principal del entrenamiento moderno de aprendizaje automático, impulsando desde la regresión logística hasta las redes neuronales profundas.

== Motivación ==

En el [[gradient descent|descenso de gradiente]] clásico, el gradiente completo de la función de pérdida se calcula sobre todo el conjunto de entrenamiento antes de cada actualización de parámetros. Cuando el conjunto de datos es grande, esto resulta prohibitivamente costoso. El SGD aborda este problema estimando el gradiente a partir de una sola muestra seleccionada aleatoriamente (o un pequeño '''mini-lote''') en cada paso, intercambiando una estimación más ruidosa por un costo por iteración drásticamente menor.

== Algoritmo ==

Dada una función de pérdida parametrizada

:<math>L(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell(\theta;\, x_i,\, y_i)</math>

la regla de actualización del SGD en el paso <math>t</math> es:

:<math>\theta_{t+1} = \theta_t - \eta_t \,\nabla_\theta \ell(\theta_t;\, x_{i_t},\, y_{i_t})</math>

donde <math>\eta_t</math> es la '''tasa de aprendizaje''' (tamaño de paso) e <math>i_t</math> es un índice seleccionado aleatoriamente.

=== Variante con mini-lotes ===

En la práctica se utiliza un '''mini-lote''' de <math>B</math> muestras:

:<math>\theta_{t+1} = \theta_t - \frac{\eta_t}{B}\sum_{j=1}^{B} \nabla_\theta \ell(\theta_t;\, x_{i_j},\, y_{i_j})</math>

Los tamaños de lote habituales oscilan entre 32 y 512. Lotes más grandes reducen la varianza del gradiente, pero incrementan el uso de memoria.

=== Pseudocódigo ===

<pre>
inicializar parámetros θ
para época = 1, 2, … hacer
mezclar conjunto de entrenamiento
para cada mini-lote B ⊂ conjunto de entrenamiento hacer
g ← (1/|B|) Σ ∇ℓ(θ; xᵢ, yᵢ) # estimar gradiente
θ ← θ − η · g # actualizar parámetros
fin para
fin para
</pre>

== Programas de tasa de aprendizaje ==

La tasa de aprendizaje <math>\eta_t</math> influye fuertemente en la convergencia. Las estrategias más comunes incluyen:

* '''Constante''' — sencilla, pero puede sobrepasar el mínimo o estancarse.
* '''Decaimiento por pasos''' — multiplicar <math>\eta</math> por un factor (por ejemplo, 0.1) cada <math>k</math> épocas.
* '''Decaimiento exponencial''' — <math>\eta_t = \eta_0 \, e^{-\lambda t}</math>.
* '''Recocido coseno''' — reduce suavemente la tasa siguiendo una curva coseno, a menudo con reinicios.
* '''Calentamiento lineal''' — aumentar gradualmente desde un <math>\eta</math> pequeño durante las primeras iteraciones para estabilizar el entrenamiento inicial.

== Propiedades de convergencia ==

Para objetivos convexos con gradientes Lipschitz-continuos, el SGD con una tasa de aprendizaje decreciente que satisfaga

:<math>\sum_{t=1}^{\infty} \eta_t = \infty, \qquad \sum_{t=1}^{\infty} \eta_t^2 < \infty</math>

converge casi seguramente al mínimo global (condiciones de Robbins–Monro). Para problemas no convexos —el régimen típico en aprendizaje profundo— el SGD converge a un punto estacionario, y la evidencia empírica muestra que a menudo encuentra buenos mínimos locales.

== Variantes populares ==

Varias extensiones reducen la varianza de la estimación del gradiente o adaptan el tamaño de paso por parámetro:

{| class="wikitable"
|-
! Método !! Idea clave !! Referencia
|-
| '''Momentum''' || Acumula un promedio móvil con decaimiento exponencial de gradientes pasados || Polyak, 1964
|-
| '''Gradiente acelerado de Nesterov''' || Evalúa el gradiente en una posición "anticipada" || Nesterov, 1983
|-
| '''Adagrad''' || Tasas por parámetro que disminuyen para características actualizadas frecuentemente || Duchi et al., 2011
|-
| '''RMSProp''' || Corrige las tasas decrecientes de Adagrad usando un promedio móvil de gradientes al cuadrado || Hinton (notas de clase), 2012
|-
| '''Adam''' || Combina momentum con tasas adaptativas al estilo RMSProp || Kingma y Ba, 2015
|-
| '''AdamW''' || Desacopla la regularización de pesos del paso de gradiente adaptativo || Loshchilov y Hutter, 2019
|}

== Consideraciones prácticas ==

* '''Mezcla de datos''' — Reordenar aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos.
* '''Recorte de gradiente''' — Limitar la norma del gradiente para prevenir actualizaciones explosivas, especialmente en redes recurrentes.
* '''Normalización por lotes''' — Normalizar las entradas de cada capa reduce la sensibilidad a la tasa de aprendizaje.
* '''Entrenamiento con precisión mixta''' — Usar punto flotante de media precisión acelera el SGD en GPUs modernas con una pérdida mínima de exactitud.

== Aplicaciones ==

El SGD y sus variantes se utilizan en prácticamente todas las áreas del aprendizaje automático:

* Entrenamiento de redes neuronales profundas (visión por computadora, PLN, reconocimiento de voz)
* Modelos lineales a gran escala (regresión logística, SVM mediante SGD)
* Optimización de políticas en aprendizaje por refuerzo
* Sistemas de recomendación y filtrado colaborativo
* Escenarios de aprendizaje en línea donde los datos llegan en flujo continuo

== Véase también ==

* [[Gradient descent|Descenso de gradiente]]
* [[Backpropagation|Retropropagación]]
* [[Adam (optimiser)|Adam (optimizador)]]
* [[Learning rate|Tasa de aprendizaje]]
* [[Convex optimisation|Optimización convexa]]

== Referencias ==

* Robbins, H. y Monro, S. (1951). "A Stochastic Approximation Method". ''Annals of Mathematical Statistics''.
* Bottou, L. (2010). "Large-Scale Machine Learning with Stochastic Gradient Descent". ''COMPSTAT''.
* Kingma, D. P. y Ba, J. (2015). "Adam: A Method for Stochastic Optimization". ''ICLR''.
* Ruder, S. (2016). "An overview of gradient descent optimization algorithms". ''arXiv:1609.04747''.

[[Category:Aprendizaje automático]]
[[Category:Algoritmos de optimización]]
[[Category:Métodos de gradiente]]

Stochastic Gradient Descent/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)