<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Stochastic_Gradient_Descent%2Fes</id>
	<title>Stochastic Gradient Descent/es - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Stochastic_Gradient_Descent%2Fes"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;action=history"/>
	<updated>2026-04-24T13:01:38Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2160&amp;oldid=prev</id>
		<title>DeployBot: [deploy-bot] Deploy from CI (8c92aeb)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2160&amp;oldid=prev"/>
		<updated>2026-04-24T07:09:01Z</updated>

		<summary type="html">&lt;p&gt;[deploy-bot] Deploy from CI (8c92aeb)&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 07:09, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l112&quot;&gt;Line 112:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 112:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Algoritmos de optimización]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Algoritmos de optimización]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!--v1.2.0 cache-bust--&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!-- pass 2 --&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2115:rev-2160 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2115&amp;oldid=prev</id>
		<title>DeployBot: Pass 2 force re-parse</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2115&amp;oldid=prev"/>
		<updated>2026-04-24T07:01:21Z</updated>

		<summary type="html">&lt;p&gt;Pass 2 force re-parse&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 07:01, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l113&quot;&gt;Line 113:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 113:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;!--v1.2.0 cache-bust--&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;!--v1.2.0 cache-bust--&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!-- pass 2 --&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2078:rev-2115 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2078&amp;oldid=prev</id>
		<title>DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2078&amp;oldid=prev"/>
		<updated>2026-04-24T06:58:43Z</updated>

		<summary type="html">&lt;p&gt;Force re-parse after Math source-mode rollout (v1.2.0)&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 06:58, 24 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l112&quot;&gt;Line 112:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 112:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Algoritmos de optimización]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Algoritmos de optimización]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Métodos de gradiente]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;!--v1.2.0 cache-bust--&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-2009:rev-2078 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2009&amp;oldid=prev</id>
		<title>DeployBot: [deploy-bot] Deploy from CI (775ba6e)</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Stochastic_Gradient_Descent/es&amp;diff=2009&amp;oldid=prev"/>
		<updated>2026-04-24T04:01:50Z</updated>

		<summary type="html">&lt;p&gt;[deploy-bot] Deploy from CI (775ba6e)&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;El &amp;#039;&amp;#039;&amp;#039;descenso de gradiente estocástico&amp;#039;&amp;#039;&amp;#039; (a menudo abreviado &amp;#039;&amp;#039;&amp;#039;SGD&amp;#039;&amp;#039;&amp;#039;, del inglés &amp;#039;&amp;#039;stochastic gradient descent&amp;#039;&amp;#039;) es un algoritmo de optimización iterativa utilizado para minimizar una función objetivo expresada como la suma de subfunciones diferenciables. Es el motor principal del entrenamiento moderno de aprendizaje automático, impulsando desde la regresión logística hasta las redes neuronales profundas.&lt;br /&gt;
&lt;br /&gt;
== Motivación ==&lt;br /&gt;
&lt;br /&gt;
En el [[gradient descent|descenso de gradiente]] clásico, el gradiente completo de la función de pérdida se calcula sobre todo el conjunto de entrenamiento antes de cada actualización de parámetros. Cuando el conjunto de datos es grande, esto resulta prohibitivamente costoso. El SGD aborda este problema estimando el gradiente a partir de una sola muestra seleccionada aleatoriamente (o un pequeño &amp;#039;&amp;#039;&amp;#039;mini-lote&amp;#039;&amp;#039;&amp;#039;) en cada paso, intercambiando una estimación más ruidosa por un costo por iteración drásticamente menor.&lt;br /&gt;
&lt;br /&gt;
== Algoritmo ==&lt;br /&gt;
&lt;br /&gt;
Dada una función de pérdida parametrizada&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;L(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell(\theta;\, x_i,\, y_i)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
la regla de actualización del SGD en el paso &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt; es:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\theta_{t+1} = \theta_t - \eta_t \,\nabla_\theta \ell(\theta_t;\, x_{i_t},\, y_{i_t})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
donde &amp;lt;math&amp;gt;\eta_t&amp;lt;/math&amp;gt; es la &amp;#039;&amp;#039;&amp;#039;tasa de aprendizaje&amp;#039;&amp;#039;&amp;#039; (tamaño de paso) e &amp;lt;math&amp;gt;i_t&amp;lt;/math&amp;gt; es un índice seleccionado aleatoriamente.&lt;br /&gt;
&lt;br /&gt;
=== Variante con mini-lotes ===&lt;br /&gt;
&lt;br /&gt;
En la práctica se utiliza un &amp;#039;&amp;#039;&amp;#039;mini-lote&amp;#039;&amp;#039;&amp;#039; de &amp;lt;math&amp;gt;B&amp;lt;/math&amp;gt; muestras:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\theta_{t+1} = \theta_t - \frac{\eta_t}{B}\sum_{j=1}^{B} \nabla_\theta \ell(\theta_t;\, x_{i_j},\, y_{i_j})&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Los tamaños de lote habituales oscilan entre 32 y 512. Lotes más grandes reducen la varianza del gradiente, pero incrementan el uso de memoria.&lt;br /&gt;
&lt;br /&gt;
=== Pseudocódigo ===&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
inicializar parámetros θ&lt;br /&gt;
para época = 1, 2, … hacer&lt;br /&gt;
    mezclar conjunto de entrenamiento&lt;br /&gt;
    para cada mini-lote B ⊂ conjunto de entrenamiento hacer&lt;br /&gt;
        g ← (1/|B|) Σ ∇ℓ(θ; xᵢ, yᵢ)   # estimar gradiente&lt;br /&gt;
        θ ← θ − η · g                     # actualizar parámetros&lt;br /&gt;
    fin para&lt;br /&gt;
fin para&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Programas de tasa de aprendizaje ==&lt;br /&gt;
&lt;br /&gt;
La tasa de aprendizaje &amp;lt;math&amp;gt;\eta_t&amp;lt;/math&amp;gt; influye fuertemente en la convergencia. Las estrategias más comunes incluyen:&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Constante&amp;#039;&amp;#039;&amp;#039; — sencilla, pero puede sobrepasar el mínimo o estancarse.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Decaimiento por pasos&amp;#039;&amp;#039;&amp;#039; — multiplicar &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; por un factor (por ejemplo, 0.1) cada &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; épocas.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Decaimiento exponencial&amp;#039;&amp;#039;&amp;#039; — &amp;lt;math&amp;gt;\eta_t = \eta_0 \, e^{-\lambda t}&amp;lt;/math&amp;gt;.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Recocido coseno&amp;#039;&amp;#039;&amp;#039; — reduce suavemente la tasa siguiendo una curva coseno, a menudo con reinicios.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Calentamiento lineal&amp;#039;&amp;#039;&amp;#039; — aumentar gradualmente desde un &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; pequeño durante las primeras iteraciones para estabilizar el entrenamiento inicial.&lt;br /&gt;
&lt;br /&gt;
== Propiedades de convergencia ==&lt;br /&gt;
&lt;br /&gt;
Para objetivos convexos con gradientes Lipschitz-continuos, el SGD con una tasa de aprendizaje decreciente que satisfaga&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\sum_{t=1}^{\infty} \eta_t = \infty, \qquad \sum_{t=1}^{\infty} \eta_t^2 &amp;lt; \infty&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
converge casi seguramente al mínimo global (condiciones de Robbins–Monro). Para problemas no convexos —el régimen típico en aprendizaje profundo— el SGD converge a un punto estacionario, y la evidencia empírica muestra que a menudo encuentra buenos mínimos locales.&lt;br /&gt;
&lt;br /&gt;
== Variantes populares ==&lt;br /&gt;
&lt;br /&gt;
Varias extensiones reducen la varianza de la estimación del gradiente o adaptan el tamaño de paso por parámetro:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Método !! Idea clave !! Referencia&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;Momentum&amp;#039;&amp;#039;&amp;#039; || Acumula un promedio móvil con decaimiento exponencial de gradientes pasados || Polyak, 1964&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;Gradiente acelerado de Nesterov&amp;#039;&amp;#039;&amp;#039; || Evalúa el gradiente en una posición &amp;quot;anticipada&amp;quot; || Nesterov, 1983&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;Adagrad&amp;#039;&amp;#039;&amp;#039; || Tasas por parámetro que disminuyen para características actualizadas frecuentemente || Duchi et al., 2011&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;RMSProp&amp;#039;&amp;#039;&amp;#039; || Corrige las tasas decrecientes de Adagrad usando un promedio móvil de gradientes al cuadrado || Hinton (notas de clase), 2012&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;Adam&amp;#039;&amp;#039;&amp;#039; || Combina momentum con tasas adaptativas al estilo RMSProp || Kingma y Ba, 2015&lt;br /&gt;
|-&lt;br /&gt;
| &amp;#039;&amp;#039;&amp;#039;AdamW&amp;#039;&amp;#039;&amp;#039; || Desacopla la regularización de pesos del paso de gradiente adaptativo || Loshchilov y Hutter, 2019&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Consideraciones prácticas ==&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Mezcla de datos&amp;#039;&amp;#039;&amp;#039; — Reordenar aleatoriamente el conjunto de datos en cada época para evitar patrones cíclicos.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Recorte de gradiente&amp;#039;&amp;#039;&amp;#039; — Limitar la norma del gradiente para prevenir actualizaciones explosivas, especialmente en redes recurrentes.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Normalización por lotes&amp;#039;&amp;#039;&amp;#039; — Normalizar las entradas de cada capa reduce la sensibilidad a la tasa de aprendizaje.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Entrenamiento con precisión mixta&amp;#039;&amp;#039;&amp;#039; — Usar punto flotante de media precisión acelera el SGD en GPUs modernas con una pérdida mínima de exactitud.&lt;br /&gt;
&lt;br /&gt;
== Aplicaciones ==&lt;br /&gt;
&lt;br /&gt;
El SGD y sus variantes se utilizan en prácticamente todas las áreas del aprendizaje automático:&lt;br /&gt;
&lt;br /&gt;
* Entrenamiento de redes neuronales profundas (visión por computadora, PLN, reconocimiento de voz)&lt;br /&gt;
* Modelos lineales a gran escala (regresión logística, SVM mediante SGD)&lt;br /&gt;
* Optimización de políticas en aprendizaje por refuerzo&lt;br /&gt;
* Sistemas de recomendación y filtrado colaborativo&lt;br /&gt;
* Escenarios de aprendizaje en línea donde los datos llegan en flujo continuo&lt;br /&gt;
&lt;br /&gt;
== Véase también ==&lt;br /&gt;
&lt;br /&gt;
* [[Gradient descent|Descenso de gradiente]]&lt;br /&gt;
* [[Backpropagation|Retropropagación]]&lt;br /&gt;
* [[Adam (optimiser)|Adam (optimizador)]]&lt;br /&gt;
* [[Learning rate|Tasa de aprendizaje]]&lt;br /&gt;
* [[Convex optimisation|Optimización convexa]]&lt;br /&gt;
&lt;br /&gt;
== Referencias ==&lt;br /&gt;
&lt;br /&gt;
* Robbins, H. y Monro, S. (1951). &amp;quot;A Stochastic Approximation Method&amp;quot;. &amp;#039;&amp;#039;Annals of Mathematical Statistics&amp;#039;&amp;#039;.&lt;br /&gt;
* Bottou, L. (2010). &amp;quot;Large-Scale Machine Learning with Stochastic Gradient Descent&amp;quot;. &amp;#039;&amp;#039;COMPSTAT&amp;#039;&amp;#039;.&lt;br /&gt;
* Kingma, D. P. y Ba, J. (2015). &amp;quot;Adam: A Method for Stochastic Optimization&amp;quot;. &amp;#039;&amp;#039;ICLR&amp;#039;&amp;#039;.&lt;br /&gt;
* Ruder, S. (2016). &amp;quot;An overview of gradient descent optimization algorithms&amp;quot;. &amp;#039;&amp;#039;arXiv:1609.04747&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
[[Category:Aprendizaje automático]]&lt;br /&gt;
[[Category:Algoritmos de optimización]]&lt;br /&gt;
[[Category:Métodos de gradiente]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>