<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Searching_for_Activation_Functions%2Fpaper%2Fes</id>
	<title>Searching for Activation Functions/paper/es - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Searching_for_Activation_Functions%2Fpaper%2Fes"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;action=history"/>
	<updated>2026-04-27T17:00:46Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;diff=12922&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Searching for Activation Functions/paper unit 1 → es</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;diff=12922&amp;oldid=prev"/>
		<updated>2026-04-27T08:05:10Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Searching for Activation Functions/paper unit 1 → es&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 08:05, 27 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l276&quot;&gt;Line 276:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 276:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[File:Arxiv_1710_05941_x7.png|423x276px|Ver pie de figura]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[File:Arxiv_1710_05941_x7.png|423x276px|Ver pie de figura]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;La diferencia más llamativa entre Swish y ReLU es la &amp;quot;protuberancia&amp;quot; no monótona de Swish cuando &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;x &amp;lt; 0&amp;lt;/math&amp;gt;. Como se muestra en la Figura [[#S4.F7|7]], un gran porcentaje de las preactivaciones cae dentro del dominio de la protuberancia (&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;- 5 \leq x \leq 0)&amp;lt;/math&amp;gt;, lo que indica que la protuberancia no monótona es un aspecto importante de Swish. La forma de la protuberancia puede controlarse cambiando el parámetro &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt;. Aunque fijar &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta = 1&amp;lt;/math&amp;gt; es efectivo en la práctica, la sección de experimentos muestra que entrenar &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; puede mejorar &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;adicionalmente &lt;/del&gt;el rendimiento en algunos modelos. La Figura [[#S4.F7|7]] &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;representa &lt;/del&gt;la distribución de los valores entrenados de &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; de un modelo Mobile NASNet-A (Zoph et al., [[#bib.bib53|2017]]). Los valores entrenados de &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; se distribuyen entre &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;0&amp;lt;/math&amp;gt; y &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;1.5&amp;lt;/math&amp;gt; y tienen un pico en &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta \approx 1&amp;lt;/math&amp;gt;, lo que sugiere que el modelo aprovecha la flexibilidad adicional de los parámetros &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; entrenables.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;La diferencia más llamativa entre Swish y ReLU es la &amp;quot;protuberancia&amp;quot; no monótona de Swish cuando &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;x &amp;lt; 0&amp;lt;/math&amp;gt;. Como se muestra en la Figura [[#S4.F7|7]], un gran porcentaje de las preactivaciones cae dentro del dominio de la protuberancia (&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;- 5 \leq x \leq 0)&amp;lt;/math&amp;gt;, lo que indica que la protuberancia no monótona es un aspecto importante de Swish. La forma de la protuberancia puede controlarse cambiando el parámetro &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt;. Aunque fijar &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta = 1&amp;lt;/math&amp;gt; es efectivo en la práctica, la sección de experimentos muestra que entrenar &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; puede mejorar &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;aún más &lt;/ins&gt;el rendimiento en algunos modelos. La Figura [[#S4.F7|7]] &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;muestra &lt;/ins&gt;la distribución de los valores entrenados de &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; de un modelo Mobile NASNet-A (Zoph et al., [[#bib.bib53|2017]]). Los valores entrenados de &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; se distribuyen entre &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;0&amp;lt;/math&amp;gt; y &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;1.5&amp;lt;/math&amp;gt; y tienen un pico en &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta \approx 1&amp;lt;/math&amp;gt;, lo que sugiere que el modelo aprovecha la flexibilidad adicional de los parámetros &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; entrenables.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;En la práctica, Swish puede implementarse con un cambio de una sola línea de código en la mayoría de las bibliotecas de aprendizaje profundo, como TensorFlow (Abadi et al., [[#bib.bib1|2016]]) (p. ej., &amp;lt;code&amp;gt;x * tf.sigmoid(beta * x)&amp;lt;/code&amp;gt; o &amp;lt;code&amp;gt;tf.nn.swish(x)&amp;lt;/code&amp;gt; si se utiliza una versión de TensorFlow publicada después de la entrega de este trabajo). Como advertencia, si se utiliza BatchNorm (Ioffe &amp;amp;amp; Szegedy, [[#bib.bib21|2015]]), debe establecerse el parámetro de escala. Algunas bibliotecas de alto nivel desactivan el parámetro de escala por defecto debido a que la función ReLU es lineal por tramos, pero esta configuración es incorrecta para Swish. Para entrenar redes Swish, encontramos que reducir ligeramente la tasa de aprendizaje utilizada para entrenar redes ReLU funciona bien.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;En la práctica, Swish puede implementarse con un cambio de una sola línea de código en la mayoría de las bibliotecas de aprendizaje profundo, como TensorFlow (Abadi et al., [[#bib.bib1|2016]]) (p. ej., &amp;lt;code&amp;gt;x * tf.sigmoid(beta * x)&amp;lt;/code&amp;gt; o &amp;lt;code&amp;gt;tf.nn.swish(x)&amp;lt;/code&amp;gt; si se utiliza una versión de TensorFlow publicada después de la entrega de este trabajo). Como advertencia, si se utiliza BatchNorm (Ioffe &amp;amp;amp; Szegedy, [[#bib.bib21|2015]]), debe establecerse el parámetro de escala. Algunas bibliotecas de alto nivel desactivan el parámetro de escala por defecto debido a que la función ReLU es lineal por tramos, pero esta configuración es incorrecta para Swish. Para entrenar redes Swish, encontramos que reducir ligeramente la tasa de aprendizaje utilizada para entrenar redes ReLU funciona bien.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;diff=12885&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Searching for Activation Functions/paper unit 68 → es</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;diff=12885&amp;oldid=prev"/>
		<updated>2026-04-27T07:34:21Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Searching for Activation Functions/paper unit 68 → es&lt;/p&gt;
&lt;a href=&quot;https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/es&amp;amp;diff=12885&quot;&gt;Show changes&lt;/a&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>